NRT-Bench: Red-teaming multi-turn de agentes LLM en sistemas críticos para la seguridad
NRT-Bench presenta un benchmark para el red-teaming multi-turn de agentes LLM que operan en una planta de energía nuclear simulada. En cuatro modelos de operador de vanguardia, entre el 8,7 % y el 12,1 % de las sesiones de ataque provocan la pérdida de una función crítica de seguridad, con vulnerabilidades en gran medida disjuntas entre los modelos. La efectividad de las defensas varía significativamente según el modelo, mostrando una fuerte dependencia del modelo.