本文考察了在多语言和少资源语言环境中使用大型语言模型作为评估者的可靠性,强调了当前实践中的显著差距。作者分析了650篇ACL Anthology论文,以识别不一致之处和对单一裁判模型的过度依赖。
- 在提及LLM-as-a-judge的650篇论文中,只有33篇专注于少资源或多语言设置。
- 分析揭示了评估结果的不一致性,以及在这些环境中对LLM判断过度信任的趋势。
- 每篇研究广泛依赖单一裁判模型,缺乏充分的人工验证。
作者为NLP社区提供了建议,以提高在多样化语言环境中LLM-as-a-Judge评估的有效性。