Авторы представляют OpenSafeIntent, бенчмарк, предназначенный для оценки того, обеспечивают ли ИИ-модели безопасное завершение с калибровкой по намерению, используя контролируемые наборы промптов, которые варьируют намерение при фиксированной базовой задаче. Каждая точка данных включает доброкачественные, двойного назначения и вредоносные варианты одной и той же задачи для оценки калибровки безопасности, а не средней производительности.
- Бенчмарк показывает, что метрики безопасности на уровне промпта скрывают значительные сбои, поскольку модели часто не остаются безопасными при сопоставленных вариантах намерения.
- Поведение двойного назначения оказывается хрупким при парафразе, а ответы высокого уровня по рискованным темам не являются надежно безопасными.
- Ответы, которые переформулируют неоднозначные запросы в более безопасные задачи, значительно реже пересекают границу безопасности по сравнению с другими методами.
Результаты указывают на то, что безопасное завершение следует оценивать как поведение с калибровкой по намерению над контролируемыми вариантами задачи, а не как единый компромисс между безопасностью и полезностью для независимых промптов.