Sobre la estabilidad del ranking de prompts en la evaluación de modelos de lenguaje grandes
Este artículo estudia sistemáticamente la estabilidad de los rankings de prompts bajo fuentes comunes de variabilidad, como semillas aleatorias y subconjuntos limitados de evaluación, en tres LLMs de peso abierto y dos tareas de benchmark.