Défis et recommandations pour les LLM-as-a-Judge dans des contextes multilingues
Cet article examine la fiabilité de l'utilisation des grands modèles de langage (LLM) comme évaluateurs dans des contextes multilingues et de langues à ressources faibles, mettant en évidence d'importantes lacunes dans les pratiques actuelles. Les auteurs ont analysé 650 articles du Anthology ACL pour identifier des incohérences et une dépendance excessive aux modèles de juge uniques.