Исследование оценило три коммерческие большие языковые модели — Claude (claude-sonnet-4-6), ChatGPT (GPT-5.4) и Gemini (gemini-2.5-flash) — на задаче тонкой классификации эмоций в режиме zero-shot с использованием стратифицированной выборки из 1 000 предложений из датасета boltuix/emotions.

  • Gemini достигла наибольшей точности (39,9%) и макро-F1 (0,363).
  • ChatGPT занял второе место с точностью 38,8% и макро-F1 0,291.
  • Claude показал точность 38,0%, но имел заметно более низкий макро-F1 на уровне 0,159, что указывает на смещение предсказаний из-за дисбаланса классов.
  • Все модели отлично справлялись с иронией и желанием, но последовательно терпели неудачу в распознавании любви, замешательства и стыда.
  • Тесты Макнемара не выявили статистически значимых попарных различий (p > 0,10), что предполагает достижение общего потолка производительности в режиме zero-shot.

Эти результаты подчеркивают текущие ограничения передовых систем ИИ при выполнении тонкой классификации эмоций в режиме zero-shot.