Los autores presentan SpeechEQ, un marco integral diseñado para evaluar el razonamiento sociolingüístico de los Modelos de Lenguaje de Voz. Las evaluaciones existentes a menudo pasan por alto el complejo razonamiento multimodal requerido para el diálogo activo, al depender de texto aislado o percepción acústica pasiva. El marco incluye un conjunto de datos validado con 2,265 diálogos en 15 subescalas del Cociente Emocional basadas en la teoría EQ-i 2.0. También cuenta con un protocolo de evaluación multi-turno medido por la puntuación Spoken EQ propuesta, inspirada en las evaluaciones humanas de EQ. Los experimentos revelan limitaciones en cómo tanto el Reconocimiento de Emoción en Voz como los modelos de extremo a extremo comprenden las señales paralingüísticas a través del habla. Mientras que las arquitecturas de extremo a extremo superan a los sistemas en cascada, los modelos multimodales actuales siguen teniendo cuellos de botella debido a varios problemas específicos. Estas barreras incluyen un atajo de modalidad dependiente del texto, una trampa de seguridad inducida por la alineación y amnesia contextual.