Calibración y robustez adversaria de la puntuación automática de ASR

Este estudio evalúa la fiabilidad de los jueces automatizados utilizados para medir las tasas de éxito de ataques en jailbreaks de LLM comparándolos con votos mayoritarios humanos. Utilizando 596 completados etiquetados por humanos de HarmBench, los autores encuentran que los clasificadores de seguridad dedicados sobre-marcan con alta recall pero menor precision, mientras que los LLM-as-judges exhiben una recall errática que oscila entre 0.06 y 0.65. Estas discrepancias causan una variabilidad significativa en el ASR reportado dependiendo de qué familia de judge se emplee. La investigación también destaca diferencias marcadas en la robustez, mostrando que los wrappers de framing benigno pueden invertir las decisiones del LLM-judge entre el 57% y el 100% de las veces. En contraste, los clasificadores dedicados resisten tales ataques superficiales pero permanecen vulnerables a ataques GCG white-box, que invirtieron el 70% de los true positives confiantes a pesar de un pequeño presupuesto de optimización. Una auditoría con dos anotadores confirmó que estas inversiones adversarias preservaron el contenido dañino subyacente. En consecuencia, muchas métricas ASR actuales se consideran poco fiables bajo presión deliberada o condiciones promedio. Los autores recomiendan reportar la precision y recall del judge en datos etiquetados por humanos e incluir verificaciones adversarias en investigaciones futuras.

Benchmark	Modelo	Puntuación
HarmBench	HarmBench classifier	0.83pts
HarmBench	LLM-as-judges	0.81pts

Benchmarks