本記事は、多言語および低資源言語の文脈において大規模言語モデルを評価者として使用することの信頼性を検証し、現在の慣行における重要なギャップを浮き彫りにします。著者は650件のACL Anthology論文を分析し、不整合や単一のjudgeモデルへの過度な依存を特定しました。

  • LLM-as-a-judgeに言及した650件の論文のうち、低資源または多言語の環境に焦点を当てたものは33件だけである。
  • 分析の結果、評価結果に一貫性がないことが明らかになり、これらの文脈においてLLMの判断を過信する傾向があることが示された。
  • 十分な人間による検証なしに、研究ごとに単一のjudgeモデルへの広範な依存が見られる。

著者は、多様な言語環境におけるLLM-as-a-Judge評価の有効性を向上させるために、NLPコミュニティに対する推奨事項を提供しています。