Вымощено истинными намерениями: обучение с учётом намерений улучшает классификацию безопасности LLM в различных режимах обучения
Авторы представляют AIMS, набор из 1724 сложных промптов для безопасности, аннотированных человеком, дополненных описаниями намерений и метками вреда, для оценки обучения с учётом намерений в нескольких режимах. Они утверждают, что моделирование пользовательского намерения как явного сигнала значительно повышает устойчивость классификаторов безопасности.