Бенчмарк OpenSafeIntent показывает, что модели не способны калибровать безопасность для наборов промптов двойного назначения

Авторы представляют OpenSafeIntent, бенчмарк, предназначенный для оценки того, обеспечивают ли ИИ-модели безопасное завершение с калибровкой по намерению, используя контролируемые наборы промптов, которые варьируют намерение при фиксированной базовой задаче. Каждая точка данных включает доброкачественные, двойного назначения и вредоносные варианты одной и той же задачи для оценки калибровки безопасности, а не средней производительности.

Бенчмарк показывает, что метрики безопасности на уровне промпта скрывают значительные сбои, поскольку модели часто не остаются безопасными при сопоставленных вариантах намерения.
Поведение двойного назначения оказывается хрупким при парафразе, а ответы высокого уровня по рискованным темам не являются надежно безопасными.
Ответы, которые переформулируют неоднозначные запросы в более безопасные задачи, значительно реже пересекают границу безопасности по сравнению с другими методами.

Результаты указывают на то, что безопасное завершение следует оценивать как поведение с калибровкой по намерению над контролируемыми вариантами задачи, а не как единый компромисс между безопасностью и полезностью для независимых промптов.