저자들은 OpenSafeIntent를 소개한다. 이는 의도를 변화시키면서 기반 과제를 고정된 상태로 유지하는 제어된 프롬프트 세트를 사용하여 AI 모델이 의도에 맞게 보정된 안전한 완료를 제공하는지 평가하도록 설계된 벤치마크이다. 각 데이터 포인트는 동일한 과제의 양성, 듀얼 유스, 악성 변형을 포함하여 평균 성능이 아닌 안전성 보정을 평가한다.

  • 벤치마크는 프롬프트 수준의 안전성 지표가 중대한 실패를 숨기고 있음을 드러내며, 모델은 종종 일치하는 의도 변형 간에 안전성을 유지하지 못한다.
  • 듀얼 유스 동작은 문장 바꾸기에 취약하며, 위험한 주제에 대한 고수준 답변은 신뢰할 수 있게 안전하지 않다.
  • 모호한 요청을 더 안전한 과제로 재구성하는 응답은 다른 방법과 비교하여 안전성 경계를 넘을 가능성이 현저히 낮다.

이 결과는 안전한 완료가 독립적인 프롬프트 전반의 단일 안전성-도움말 트레이드오프가 아니라 제어된 과제 변형에 걸친 의도 보정 행동으로 평가되어야 함을 시사한다.