Caminos con Intenciones Reales: El Entrenamiento Consciente de la Intención Mejora la Clasificación de Seguridad de LLMs en Diversos Regímenes de Entrenamiento

Los autores presentan AIMS, un conjunto de datos de 1.724 prompts de seguridad difíciles anotados por humanos, emparejados con descripciones de intención y etiquetas de daño, para evaluar el entrenamiento consciente de la intención en múltiples regímenes. Argumentan que modelar la intención del usuario como una señal explícita mejora significativamente la robustez de los clasificadores de seguridad.

AIMS contiene 1.724 prompts de seguridad difíciles con descripciones de intención y etiquetas de daño.
La destilación condicionada por intención supera a la destilación solo de razonamiento en la mayoría de los pares maestro-estudiante.
Recompensar directamente la fidelidad de la intención con GRPO produce el mejor rendimiento promedio en cinco benchmarks externos de seguridad.
Los modelos conscientes de la intención forman la frontera Pareto entre latencia de inferencia y F1.

El modelado fiel de la intención sirve como una señal de supervisión compacta y de alta calidad para crear clasificadores de seguridad más robustos.