Une étude a évalué trois grands modèles de langage commerciaux — Claude (claude-sonnet-4-6), ChatGPT (GPT-5.4) et Gemini (gemini-2.5-flash) — sur une tâche de classification fine des émotions en zero-shot, à l'aide d'un échantillon stratifié de 1 000 phrases du jeu de données boltuix/emotions.
- Gemini a obtenu la précision la plus élevée (39,9 %) et le score macro-F1 le plus élevé (0,363).
- ChatGPT s'est classé deuxième avec une précision de 38,8 % et un macro-F1 de 0,291.
- Claude a obtenu une précision de 38,0 %, mais un macro-F1 nettement inférieur de 0,159, indiquant un biais de prédiction dû au déséquilibre des classes.
- Tous les modèles ont excellé dans l'ironie et le désir, mais ont systématiquement échoué sur l'amour, la confusion et la honte.
- Les tests de McNemar n'ont révélé aucune différence paire statistiquement significative (p > 0,10), suggérant une convergence vers un plafond partagé en zero-shot.
Ces résultats mettent en lumière les limites actuelles des systèmes d'IA de pointe dans la réalisation de classifications fines des émotions en zero-shot.