Estabilidad del ranking de prompts en la evaluación de LLM

Los rankings de prompts en la evaluación de modelos de lenguaje grandes a menudo son inestables bajo variaciones menores como semillas aleatorias y subconjuntos limitados. Una estrategia de selección consciente de la estabilidad que utiliza límites inferiores de confianza mejora la robustez al tener en cuenta tanto el rendimiento como la varianza, mientras mantiene la competitividad en entornos estables.