Что именно в голосовых чатах с LLM делает их менее способными? Общаться с ними удивительно, но если вы хотите создать медиа или генерировать медиа, они вдруг не могут этого сделать. Это известное препятствие, которое исследуется? Или спроса на это недостаточно?