Desafios e Recomendações para LLMs como Juízes em Configurações Multilíngues
Este artigo examina a confiabilidade do uso de Grandes Modelos de Linguagem como avaliadores em contextos multilíngues e de idiomas com poucos recursos, destacando lacunas significativas nas práticas atuais. Os autores analisam 650 artigos do Anthology ACL para identificar inconsistências e uma dependência excessiva de modelos de juiz únicos.