L'évaluation en zero-shot montre que Gemini domine les LLM sur une taxonomie d'émotions à 13 classes

Une étude a évalué trois grands modèles de langage commerciaux — Claude (claude-sonnet-4-6), ChatGPT (GPT-5.4) et Gemini (gemini-2.5-flash) — sur une tâche de classification fine des émotions en zero-shot, à l'aide d'un échantillon stratifié de 1 000 phrases du jeu de données boltuix/emotions.

Gemini a obtenu la précision la plus élevée (39,9 %) et le score macro-F1 le plus élevé (0,363).
ChatGPT s'est classé deuxième avec une précision de 38,8 % et un macro-F1 de 0,291.
Claude a obtenu une précision de 38,0 %, mais un macro-F1 nettement inférieur de 0,159, indiquant un biais de prédiction dû au déséquilibre des classes.
Tous les modèles ont excellé dans l'ironie et le désir, mais ont systématiquement échoué sur l'amour, la confusion et la honte.
Les tests de McNemar n'ont révélé aucune différence paire statistiquement significative (p > 0,10), suggérant une convergence vers un plafond partagé en zero-shot.

Ces résultats mettent en lumière les limites actuelles des systèmes d'IA de pointe dans la réalisation de classifications fines des émotions en zero-shot.