Cet article examine la fiabilité de l'utilisation des grands modèles de langage (LLM) comme évaluateurs dans des contextes multilingues et de langues à ressources faibles, mettant en évidence d'importantes lacunes dans les pratiques actuelles. Les auteurs ont analysé 650 articles du Anthology ACL pour identifier des incohérences et une dépendance excessive aux modèles de juge uniques.

  • Sur les 650 articles mentionnant LLM-as-a-judge, seuls 33 se concentrent sur des contextes à ressources faibles ou multilingues.
  • L'analyse révèle des résultats d'évaluation incohérents et une tendance à faire trop confiance aux jugements des LLM dans ces contextes.
  • Il existe une dépendance généralisée à un seul modèle de juge par étude, sans validation humaine adéquate.

Les auteurs fournissent des recommandations à la communauté NLP pour améliorer la validité des évaluations LLM-as-a-Judge dans des contextes linguistiques diversifiés.