Co sprawia, że rozmowy głosowe z LLM-ami są mniej wydajne? Rozmawianie z nimi jest niesamowite, ale jeśli chcesz wprowadzić media lub generować media, nagle nie potrafią tego zrobić. Czy to znana przeszkoda, która jest badana? A może nie ma wystarczającego popytu na to?