Un estudio evaluó tres modelos de lenguaje grandes comerciales: Claude (claude-sonnet-4-6), ChatGPT (GPT-5.4) y Gemini (gemini-2.5-flash) en una tarea de clasificación fina de emociones zero-shot utilizando una muestra estratificada de 1.000 oraciones del conjunto de datos boltuix/emotions.
- Gemini logró la mayor precisión (39,9%) y puntuación macro-F1 (0,363).
- ChatGPT le siguió con una precisión del 38,8% y un macro-F1 de 0,291.
- Claude obtuvo una precisión del 38,0%, pero tuvo un macro-F1 notablemente menor de 0,159, lo que indica un sesgo de predicción por desequilibrio de clases.
- Todos los modelos destacaron en ironía y deseo, pero fallaron consistentemente en amor, confusión y vergüenza.
- Las pruebas de McNemar revelaron diferencias pareadas no estadísticamente significativas (p > 0,10), sugiriendo convergencia en un techo compartido zero-shot.
Estos hallazgos resaltan las limitaciones actuales de los sistemas de IA de vanguardia al realizar clasificación fina de emociones zero-shot.