Авторы представляют AIMS, набор из 1724 сложных промптов для безопасности, аннотированных человеком, дополненных описаниями намерений и метками вреда, для оценки обучения с учётом намерений в нескольких режимах. Они утверждают, что моделирование пользовательского намерения как явного сигнала значительно повышает устойчивость классификаторов безопасности.

  • AIMS содержит 1724 сложных промпта для безопасности с описаниями намерений и метками вреда.
  • Дистилляция, обусловленная намерением, превосходит дистилляцию только по рассуждениям в большинстве пар учитель-студент.
  • Прямое вознаграждение за верность намерению с помощью GRPO даёт наилучшую среднюю производительность по пяти внешним бенчмаркам безопасности.
  • Модели с учётом намерений формируют фронт Парето между латентностью вывода и F1.

Верное моделирование намерения служит компактным сигналом надзора высокого качества для создания более устойчивых классификаторов безопасности.