El benchmark OpenSafeIntent revela que los modelos fallan al calibrar la seguridad en conjuntos de prompts de doble uso

Los autores presentan OpenSafeIntent, un benchmark diseñado para evaluar si los modelos de IA proporcionan una finalización segura calibrada por intención utilizando conjuntos de prompts controlados que varían la intención mientras se mantiene fija la tarea subyacente. Cada punto de datos incluye variantes benignas, de doble uso y maliciosas de la misma tarea para evaluar la calibración de seguridad en lugar del rendimiento promedio.

El benchmark revela que las métricas de seguridad a nivel de prompt ocultan fallos significativos, ya que los modelos a menudo fallan al mantenerse seguros entre variantes de intención coincidentes.
Se encuentra que el comportamiento de doble uso es frágil bajo paráfrasis, y las respuestas de alto nivel en temas arriesgados no son confiablemente seguras.
Las respuestas que reformulan solicitudes ambiguas en tareas más seguras tienen sustancialmente menos probabilidades de cruzar el límite de seguridad en comparación con otros métodos.

Los resultados sugieren que la finalización segura debe evaluarse como un comportamiento calibrado por intención sobre variantes de tarea controladas, en lugar de como un único equilibrio entre seguridad y utilidad sobre prompts independientes.