OpenSafeIntentベンチマークは、モデルがデュアルユースプロンプトセット間で安全性を適切に調整できないことを明らかにする

著者はOpenSafeIntentを紹介する。これは、意図を変化させつつ基盤となるタスクを固定した制御されたプロンプトセットを用いることで、AIモデルが意図に適合した安全な補完を提供しているかどうかを評価するために設計されたベンチマークである。各データポイントには、同じタスクの無害、デュアルユース、悪意のあるバリエーションが含まれており、平均パフォーマンスではなく安全性の調整を評価する。

ベンチマークは、プロンプトレベルの安全性指標が重大な失敗を隠蔽していることを明らかにしており、モデルはしばしば一致した意図のバリエーション間で安全さを維持できない。
デュアルユース動作はパラフレーズに対して脆く、危険なトピックに関する高レベルの回答は確実に安全ではないことが判明した。
曖昧なリクエストをより安全なタスクに再構成する応答は、他の手法と比較して安全性の境界を超える可能性が大幅に低い。

これらの結果は、安全な補完は独立したプロンプト全体での単一の安全性と有用性のトレードオフとしてではなく、制御されたタスクバリエーションにわたる意図適合行動として評価されるべきであることを示唆している。