w końcu przechodzimy od rozpoznawania mowy do rozumienia kontekstu środowiskowego!! standardowe asystenty głosowe korzystają z pipeline'u ASR (rozpoznawanie mowy), który usuwa 90% kontekstu akustycznego. to, co pokazuje OpenHome, prawdopodobnie wykorzystuje natywne transformatory audio lub osadzenia CLAP (Contrastive Language-Audio Pretraining) do ciągłego przetwarzania surowych spektrogramów audio. wykrywa zdarzenia akustyczne (AED) i wskazówki paralingwistyczne (westchnienia, ton) zamiast tylko słów. teraz dodaj zawsze włączony strumień z kamery z wizualnymi transformerami, a właśnie dałeś swojemu agentowi oczy, które pasują do jego przestrzennego słuchu. prawdziwa fuzja sensorów multimodalnych może sprawić, że ręczne wywoływanie stanie się zbędne po prostu coś do przemyślenia