Este artigo examina a confiabilidade do uso de Grandes Modelos de Linguagem como avaliadores em contextos multilíngues e de idiomas com poucos recursos, destacando lacunas significativas nas práticas atuais. Os autores analisam 650 artigos do Anthology ACL para identificar inconsistências e uma dependência excessiva de modelos de juiz únicos.

  • Dos 650 artigos que mencionam LLM-as-a-judge, apenas 33 se concentram em configurações com poucos recursos ou multilíngues.
  • A análise revela resultados de avaliação inconsistentes e uma tendência a confiar demais nos julgamentos do LLM nesses contextos.
  • Há uma ampla dependência de um único modelo de juiz por estudo, sem validação humana adequada.

Os autores fornecem recomendações para a comunidade de PLN para melhorar a validade das avaliações LLM-as-a-Judge em configurações linguísticas diversas.