多言語環境におけるLLM-as-a-Judgeの課題と推奨事項

本記事は、多言語および低資源言語の文脈において大規模言語モデルを評価者として使用することの信頼性を検証し、現在の慣行における重要なギャップを浮き彫りにします。著者は650件のACL Anthology論文を分析し、不整合や単一のjudgeモデルへの過度な依存を特定しました。

著者は、多様な言語環境におけるLLM-as-a-Judge評価の有効性を向上させるために、NLPコミュニティに対する推奨事項を提供しています。