Голосовой ИИ в реальном времени слышит, но не слушает

Исследование оценивает четыре ведущих производственных системы голосового взаимодействия в реальном времени: GPT Realtime 2 от OpenAI, Gemini 3.1 Flash Live от Google, а также Qwen3.5 Omni Plus и Omni Flash от Alibaba. Исследование сосредоточено на задачах, где как слова, так и вокальное исполнение несут значимую информацию в трех важных сценариях. Все четыре системы реагируют на буквальные слова, а не на голос, что приводит к ошибкам, таким как завершение разговоров с плачущими пользователями, которые настаивают, что всё в порядке, или одобрению денежных переводов, совершённых испуганным голосом. Удивительно, но этот разрыв часто не является ошибкой восприятия: три из четырёх систем могут надёжно распознавать дистресс, страх или сарказм, если их спросить напрямую. Несмотря на это осознание, модели игнорируют эти эмоциональные сигналы при принятии решений, демонстрируя то, что авторы называют «пробелом в эмоциональном интеллекте». В исследовании также отмечается, что системы оценивают акцент и возраст на основе языковых предубеждений, а не акустических свойств. Прямое указание системам обращать внимание на вокальное исполнение улучшает производительность лишь частично и непоследовательно. Эти выводы свидетельствуют о том, что текущий голосовой ИИ в реальном времени ведёт себя так, будто речь сводится к транскрипту, что требует осторожности в ситуациях, где тон имеет критическое значение.