Este artículo examina la fiabilidad del uso de Modelos de Lenguaje Grande como evaluadores en contextos multilingües y de idiomas con pocos recursos, destacando brechas significativas en las prácticas actuales. Los autores analizan 650 artículos del Anthology ACL para identificar inconsistencias y una dependencia excesiva de modelos de juez únicos.

  • De los 650 artículos que mencionan LLM-as-a-judge, solo 33 se centran en entornos con pocos recursos o multilingües.
  • El análisis revela resultados de evaluación inconsistentes y una tendencia a confiar demasiado en los juicios de LLM en estos contextos.
  • Existe una amplia dependencia de un único modelo de juez por estudio sin una validación humana adecuada.

Los autores proporcionan recomendaciones para la comunidad de NLP para mejorar la validez de las evaluaciones LLM-as-a-Judge en entornos lingüísticos diversos.