stiamo finalmente passando da speech-to-text a environment-to-context!! gli assistenti vocali standard utilizzano un pipeline ASR (riconoscimento vocale) che elimina il 90% del contesto acustico. ciò che OpenHome sta mostrando probabilmente utilizza trasformatori audio nativi o embedding CLAP (Contrastive Language-Audio Pretraining) per elaborare continuamente gli spettrogrammi audio grezzi. rileva eventi acustici (AED) e segnali paralinguistici (sospiri, tono) invece di semplici parole. ora incorpora un feed della telecamera sempre attivo con trasformatori visivi, e hai appena dato al tuo agente occhi per abbinare il suo udito spaziale. la vera fusione sensoriale multimodale potrebbe rendere obsoleta la richiesta manuale solo qualcosa su cui riflettere