EvalSafetyGap: Un marco híbrido de encuesta y concepto para fallos de seguridad en la evaluación de LLM

Este artículo aborda el problema compartido de medición en la evaluación de LLM y la seguridad de IA, donde las puntuaciones de los benchmarks a menudo mejoran mientras que las propiedades de seguridad latentes permanecen difíciles de verificar. Introduce EvalSafetyGap, un marco híbrido de encuesta y concepto que combina síntesis sistemática de evidencia con una auditoría estructurada de diez modelos.

La síntesis cubre ocho flujos de evidencia desde 2018 hasta 2026, incluyendo validez del benchmark, confiabilidad de LLM-as-judge, recompensa hacking e interpretabilidad mecánica.
EvalSafetyGap utiliza la Ley de Goodhart, Descomposición de Inestabilidad y el Trilema de Alineación para comparar fallos de proxy en evaluación y alineación bajo presión de optimización.
Una auditoría de diez modelos encontró que la asociación entre capacidad y robustez adversarial sostenida es estadísticamente indeterminada (Pearson r = +0.232, p = 0.520).
La brecha de seguridad aparente abierta-cerrada fue modesta y impulsada principalmente por gobernanza y divulgación en lugar de robustez conductual.

La contribución proporciona un vocabulario compartido y un mapa de evidencia para apoyar evaluación dinámica, reporte transparente de fuentes, medición de seguridad multi-intento y práctica de alineación auditable.