我們終於從語音轉換到環境轉換!! 標準的語音助手使用 ASR(語音識別)管道,剝離了 90% 的聲學上下文。OpenHome 展示的技術可能使用原生音頻變壓器或 CLAP(對比語言-音頻預訓練)嵌入,持續處理原始音頻頻譜圖。它檢測聲學事件(AED)和副語言線索(嘆息、語調),而不僅僅是單詞。 現在再加入一個始終開啟的攝像頭視訊流,搭配視覺變壓器,你就給了你的代理人與其空間聽覺相匹配的眼睛。 真正的多模態傳感器融合可能使手動提示變得過時。 這只是值得思考的事情。