Вымощено истинными намерениями: обучение с учётом намерений улучшает классификацию безопасности LLM в различных режимах обучения

Авторы представляют AIMS, набор из 1724 сложных промптов для безопасности, аннотированных человеком, дополненных описаниями намерений и метками вреда, для оценки обучения с учётом намерений в нескольких режимах. Они утверждают, что моделирование пользовательского намерения как явного сигнала значительно повышает устойчивость классификаторов безопасности.

AIMS содержит 1724 сложных промпта для безопасности с описаниями намерений и метками вреда.
Дистилляция, обусловленная намерением, превосходит дистилляцию только по рассуждениям в большинстве пар учитель-студент.
Прямое вознаграждение за верность намерению с помощью GRPO даёт наилучшую среднюю производительность по пяти внешним бенчмаркам безопасности.
Модели с учётом намерений формируют фронт Парето между латентностью вывода и F1.

Верное моделирование намерения служит компактным сигналом надзора высокого качества для создания более устойчивых классификаторов безопасности.