Une étude a évalué trois grands modèles de langage commerciaux — Claude (claude-sonnet-4-6), ChatGPT (GPT-5.4) et Gemini (gemini-2.5-flash) — sur une tâche de classification fine des émotions en zero-shot, à l'aide d'un échantillon stratifié de 1 000 phrases du jeu de données boltuix/emotions.

  • Gemini a obtenu la précision la plus élevée (39,9 %) et le score macro-F1 le plus élevé (0,363).
  • ChatGPT s'est classé deuxième avec une précision de 38,8 % et un macro-F1 de 0,291.
  • Claude a obtenu une précision de 38,0 %, mais un macro-F1 nettement inférieur de 0,159, indiquant un biais de prédiction dû au déséquilibre des classes.
  • Tous les modèles ont excellé dans l'ironie et le désir, mais ont systématiquement échoué sur l'amour, la confusion et la honte.
  • Les tests de McNemar n'ont révélé aucune différence paire statistiquement significative (p > 0,10), suggérant une convergence vers un plafond partagé en zero-shot.

Ces résultats mettent en lumière les limites actuelles des systèmes d'IA de pointe dans la réalisation de classifications fines des émotions en zero-shot.