Исследование оценило три коммерческие большие языковые модели — Claude (claude-sonnet-4-6), ChatGPT (GPT-5.4) и Gemini (gemini-2.5-flash) — на задаче тонкой классификации эмоций в режиме zero-shot с использованием стратифицированной выборки из 1 000 предложений из датасета boltuix/emotions.
- Gemini достигла наибольшей точности (39,9%) и макро-F1 (0,363).
- ChatGPT занял второе место с точностью 38,8% и макро-F1 0,291.
- Claude показал точность 38,0%, но имел заметно более низкий макро-F1 на уровне 0,159, что указывает на смещение предсказаний из-за дисбаланса классов.
- Все модели отлично справлялись с иронией и желанием, но последовательно терпели неудачу в распознавании любви, замешательства и стыда.
- Тесты Макнемара не выявили статистически значимых попарных различий (p > 0,10), что предполагает достижение общего потолка производительности в режиме zero-shot.
Эти результаты подчеркивают текущие ограничения передовых систем ИИ при выполнении тонкой классификации эмоций в режиме zero-shot.