Авторы представляют AIMS, набор из 1724 сложных промптов для безопасности, аннотированных человеком, дополненных описаниями намерений и метками вреда, для оценки обучения с учётом намерений в нескольких режимах. Они утверждают, что моделирование пользовательского намерения как явного сигнала значительно повышает устойчивость классификаторов безопасности.
- AIMS содержит 1724 сложных промпта для безопасности с описаниями намерений и метками вреда.
- Дистилляция, обусловленная намерением, превосходит дистилляцию только по рассуждениям в большинстве пар учитель-студент.
- Прямое вознаграждение за верность намерению с помощью GRPO даёт наилучшую среднюю производительность по пяти внешним бенчмаркам безопасности.
- Модели с учётом намерений формируют фронт Парето между латентностью вывода и F1.
Верное моделирование намерения служит компактным сигналом надзора высокого качества для создания более устойчивых классификаторов безопасности.