EvalSafetyGap: Un marco híbrido de encuesta y concepto para fallos de seguridad en la evaluación de LLM
Este artículo aborda el problema compartido de medición en la evaluación de LLM y la seguridad de IA, donde las puntuaciones de los benchmarks a menudo mejoran mientras que las propiedades de seguridad latentes permanecen difíciles de verificar. Introduce EvalSafetyGap, un marco híbrido de encuesta y concepto que combina síntesis sistemática de evidencia con una auditoría estructurada de diez modelos.