Kami akhirnya beralih dari ucapan-ke-teks ke lingkungan-ke-konteks!! asisten suara standar menggunakan alur ASR (pengenalan suara) yang menghilangkan 90% konteks akustik. apa yang ditampilkan OpenHome kemungkinan menggunakan transformator audio asli atau penyematan CLAP (Contrastive Language-Audio Pretraining) untuk memproses spektrogram audio mentah secara terus menerus. itu mendeteksi Peristiwa Akustik (AED) dan isyarat paralinguistik (desahan, nada) alih-alih hanya kata-kata. Sekarang gabungkan umpan kamera yang selalu aktif dengan transformator visual, dan Anda hanya memberi mata agen Anda agar sesuai dengan pendengaran spasialnya. Fusi sensor multimodal sejati dapat membuat prompting manual menjadi usang hanya sesuatu yang perlu dipikirkan