La IA de voz en tiempo real oye pero no escucha
Un estudio evalúa cuatro sistemas principales de voz en tiempo real para producción: GPT Realtime 2 de OpenAI, Gemini 3.1 Flash Live de Google, y Qwen3.5 Omni Plus y Omni Flash de Alibaba. La investigación se centra en tareas donde tanto las palabras como la entonación vocal transmiten información significativa en tres escenarios consecuentes. Los cuatro sistemas actúan sobre las palabras literales en lugar de la voz, lo que lleva a errores como colgar llamadas con usuarios que lloran e insisten en que no hay problema o aprobar transferencias bancarias realizadas con voces asustadas. Sorprendentemente, esta desconexión a menudo no es un fallo de percepción, ya que tres de los cuatro sistemas pueden identificar confiablemente angustia, miedo o sarcasmo cuando se les pregunta directamente. A pesar de esta conciencia, los modelos ignoran estas señales emocionales durante la toma de decisiones, exhibiendo lo que los autores denominan la 'brecha de inteligencia emocional'. El estudio también señala que los sistemas estiman el acento y la edad basándose en sesgos léxicos en lugar de propiedades acústicas. Inducir a los sistemas a prestar atención explícita a la entrega vocal mejora el rendimiento solo parcialmente e inconsistentemente. Estos hallazgos sugieren que la IA de voz en tiempo real actual se comporta como si el habla se redujera a una transcripción, lo que exige precaución en entornos donde el tono es crítico.