PolicyAlign: Alineación de seguridad basada directamente en políticas para modelos de lenguaje grandes

Los autores presentan PolicyAlign, un marco diseñado para alinear modelos de lenguaje grandes directamente con políticas de seguridad en lenguaje natural, en lugar de depender de costosos datos de supervisión. Este enfoque aborda la discrepancia entre los requisitos de seguridad en rápida evolución y los métodos convencionales de alineación basados en datos. El proceso comienza sintetizando instrucciones que violan la política especificada, seguido de auto-distilación on-policy para internalizar el comportamiento deseado. Para mejorar la estabilidad del entrenamiento y la eficiencia de los datos, el método incorpora Filtrado Sensible a la Política, que selecciona las instrucciones que inducen el mayor cambio conductual. Los experimentos en múltiples modelos demuestran que PolicyAlign mejora consistentemente las métricas de seguridad mientras mantiene bajas tasas de rechazo excesivo y preserva las capacidades generales. El marco también se generaliza eficazmente a dominios especializados como escenarios de seguridad médica, legal y financiera. El código para este enfoque escalable de alineación se ha publicado en https://github.com/Qwen-Applications/PolicyAlign.