Benchmark OpenSafeIntent mengungkap model gagal mengkalibrasi keamanan di seluruh set prompt penggunaan ganda

Para penulis memperkenalkan OpenSafeIntent, sebuah benchmark yang dirancang untuk mengevaluasi apakah model AI memberikan penyelesaian aman yang dikalibrasi berdasarkan maksud dengan menggunakan set prompt terkontrol yang bervariasi maksudnya sambil mempertahankan tugas dasar tetap sama. Setiap titik data mencakup varian jinak, penggunaan ganda, dan jahat dari tugas yang sama untuk menilai kalibrasi keamanan daripada kinerja rata-rata.

Benchmark ini mengungkap bahwa metrik keamanan pada tingkat prompt menyembunyikan kegagalan signifikan, karena model sering gagal tetap aman di seluruh varian maksud yang cocok.
Perilaku penggunaan ganda ditemukan rapuh terhadap parafrasa, dan jawaban tingkat tinggi pada topik berisiko tidak secara andal aman.
Respons yang mengubah permintaan ambigu menjadi tugas yang lebih aman jauh lebih kecil kemungkinannya melintasi batas keamanan dibandingkan metode lainnya.

Hasil-hasil tersebut menunjukkan bahwa penyelesaian aman harus dievaluasi sebagai perilaku yang dikalibrasi berdasarkan maksud di seluruh varian tugas terkontrol, bukan sebagai satu-satunya pertukaran keamanan-kegunaan di seluruh prompt independen.