多语言设置中LLM作为裁判的挑战与建议

本文考察了在多语言和少资源语言环境中使用大型语言模型作为评估者的可靠性，强调了当前实践中的显著差距。作者分析了650篇ACL Anthology论文，以识别不一致之处和对单一裁判模型的过度依赖。

作者为NLP社区提供了建议，以提高在多样化语言环境中LLM-as-a-Judge评估的有效性。