PolicyAlign: Прямое согласование политик для обеспечения безопасности больших языковых моделей

Авторы представляют PolicyAlign — фреймворк, предназначенный для прямого согласования больших языковых моделей с политиками безопасности, заданными на естественном языке, вместо использования дорогостоящих размеченных данных. Этот подход решает проблему несоответствия между быстро меняющимися требованиями к безопасности и традиционными методами выравнивания, основанными на данных. Процесс начинается с синтеза инструкций, нарушающих указанную политику, за которым следует самодистилляция в рамках текущей политики для усвоения желаемого поведения. Для повышения стабильности обучения и эффективности использования данных метод включает Policy-Sensitive Filtering (чувствительную к политике фильтрацию), которая отбирает инструкции, вызывающие наибольшее изменение поведения. Эксперименты на нескольких моделях показывают, что PolicyAlign последовательно улучшает показатели безопасности при сохранении низкого уровня избыточных отказов и сохранении общих возможностей. Фреймворк также эффективно обобщается на специализированные области, такие как медицинские, юридические и финансовые сценарии безопасности. Код этого масштабируемого подхода к выравниванию опубликован по адресу https://github.com/Qwen-Applications/PolicyAlign.