Sobre la estabilidad del ranking de prompts en la evaluación de modelos de lenguaje grandes

Este artículo estudia sistemáticamente la estabilidad de los rankings de prompts bajo fuentes comunes de variabilidad, como semillas aleatorias y subconjuntos limitados de evaluación, en tres LLMs de peso abierto y dos tareas de benchmark.

Las correlaciones de rango global suelen ser moderadas a altas, pero la identidad del prompt con mejor rendimiento cambia frecuentemente.
Esta inestabilidad conduce a decisiones de selección poco confiables para su uso posterior.
Los autores proponen una estrategia de selección consciente de la estabilidad basada en un límite inferior de confianza que tiene en cuenta tanto el rendimiento como la varianza.
Este enfoque mejora la robustez en entornos inestables mientras se mantiene competitivo en regímenes más estables.

Estos hallazgos destacan la importancia de tener en cuenta la incertidumbre de evaluación en la selección de prompts y la benchmarking de LLMs.