В этой статье рассматривается надежность использования больших языковых моделей в качестве оценщиков в многоязычных контекстах и контекстах с малым объемом ресурсов, подчеркивая значительные пробелы в текущей практике. Авторы анализируют 650 статей из Anthology ACL, чтобы выявить несоответствия и чрезмерную зависимость от одной модели-судьи.

  • Из 650 статей, упоминающих LLM-as-a-judge, только 33 сосредоточены на условиях с малым объемом ресурсов или многоязычных условиях.
  • Анализ выявляет непоследовательные результаты оценки и тенденцию к чрезмерному доверию суждениям LLM в этих контекстах.
  • Наблюдается широкое использование одной модели-судьи в каждом исследовании без адекватной человеческой проверки.

Авторы дают рекомендации сообществу NLP для повышения достоверности оценок LLM-as-a-Judge в разнообразных лингвистических условиях.