Este artículo aborda el problema compartido de medición en la evaluación de LLM y la seguridad de IA, donde las puntuaciones de los benchmarks a menudo mejoran mientras que las propiedades de seguridad latentes permanecen difíciles de verificar. Introduce EvalSafetyGap, un marco híbrido de encuesta y concepto que combina síntesis sistemática de evidencia con una auditoría estructurada de diez modelos.

  • La síntesis cubre ocho flujos de evidencia desde 2018 hasta 2026, incluyendo validez del benchmark, confiabilidad de LLM-as-judge, recompensa hacking e interpretabilidad mecánica.
  • EvalSafetyGap utiliza la Ley de Goodhart, Descomposición de Inestabilidad y el Trilema de Alineación para comparar fallos de proxy en evaluación y alineación bajo presión de optimización.
  • Una auditoría de diez modelos encontró que la asociación entre capacidad y robustez adversarial sostenida es estadísticamente indeterminada (Pearson r = +0.232, p = 0.520).
  • La brecha de seguridad aparente abierta-cerrada fue modesta y impulsada principalmente por gobernanza y divulgación en lugar de robustez conductual.

La contribución proporciona un vocabulario compartido y un mapa de evidencia para apoyar evaluación dinámica, reporte transparente de fuentes, medición de seguridad multi-intento y práctica de alineación auditable.