Авторы представляют SpeechEQ — комплексную рамку для оценки социолингвистического мышления моделей обработки речи и языка. Существующие методы оценки часто упускают из виду сложное кросс-модальное рассуждение, необходимое для активного диалога, полагаясь на изолированный текст или пассивное акустическое восприятие. Фреймворк включает валидированный набор данных из 2265 диалогов по 15 подшкалам эмоционального интеллекта (EQ), основанным на теории EQ-i 2.0. Он также содержит протокол многошаговой оценки, измеряемый с помощью предложенного показателя Spoken EQ, вдохновленного оценками человеческого EQ. Эксперименты выявляют ограничения в том, как системы распознавания эмоций по речи и сквозные (end-to-end) модели понимают паралингвистические признаки через речь. Хотя сквозные архитектуры превосходят каскадные системы, современные мультимодальные модели остаются ограниченными рядом специфических проблем. Эти барьеры включают модальное укорочение, зависящее от текста, ловушку безопасности, индуцированную выравниванием, и контекстную амнезию.