OpenSafeIntent 벤치마크는 모델이 듀얼 유스 프롬프트 세트 간 안전성을 보정하지 못함을 드러냄

저자들은 OpenSafeIntent를 소개한다. 이는 의도를 변화시키면서 기반 과제를 고정된 상태로 유지하는 제어된 프롬프트 세트를 사용하여 AI 모델이 의도에 맞게 보정된 안전한 완료를 제공하는지 평가하도록 설계된 벤치마크이다. 각 데이터 포인트는 동일한 과제의 양성, 듀얼 유스, 악성 변형을 포함하여 평균 성능이 아닌 안전성 보정을 평가한다.

벤치마크는 프롬프트 수준의 안전성 지표가 중대한 실패를 숨기고 있음을 드러내며, 모델은 종종 일치하는 의도 변형 간에 안전성을 유지하지 못한다.
듀얼 유스 동작은 문장 바꾸기에 취약하며, 위험한 주제에 대한 고수준 답변은 신뢰할 수 있게 안전하지 않다.
모호한 요청을 더 안전한 과제로 재구성하는 응답은 다른 방법과 비교하여 안전성 경계를 넘을 가능성이 현저히 낮다.

이 결과는 안전한 완료가 독립적인 프롬프트 전반의 단일 안전성-도움말 트레이드오프가 아니라 제어된 과제 변형에 걸친 의도 보정 행동으로 평가되어야 함을 시사한다.