Um estudo avaliou três grandes modelos de linguagem comerciais — Claude (claude-sonnet-4-6), ChatGPT (GPT-5.4) e Gemini (gemini-2.5-flash) — em uma tarefa de classificação fina de emoções zero-shot usando uma amostra estratificada de 1.000 frases do conjunto de dados boltuix/emotions.

  • O Gemini alcançou a maior precisão (39,9%) e pontuação macro-F1 (0,363).
  • O ChatGPT ficou em seguida com precisão de 38,8% e macro-F1 de 0,291.
  • O Claude obteve precisão de 38,0%, mas teve um macro-F1 notavelmente menor de 0,159, indicando viés de predição por desequilíbrio de classes.
  • Todos os modelos se saíram bem em sarcasmo e desejo, mas falharam consistentemente em amor, confusão e vergonha.
  • Os testes de McNemar revelaram diferenças pareadas não estatisticamente significativas (p > 0,10), sugerindo convergência em um teto zero-shot compartilhado.

Esses resultados destacam as limitações atuais dos sistemas de IA de ponta ao realizar classificação fina de emoções zero-shot.