Artikel ini membahas persistensi output yang tidak aman pada model bahasa besar selama deployment dan mengusulkan solusi pemantauan real-time. Artikel ini memperkenalkan monitor sederhana yang mengonversi sinyal verifier dari model eksternal menjadi keputusan alarm melalui thresholding, dengan ambang batas yang dikalibrasi melalui kontrol risiko.
- Metode ini menggunakan thresholding pada sinyal verifier untuk menghasilkan alarm.
- Ambang batas dikalibrasi menggunakan teknik kontrol risiko.
- Eksperimen dilakukan pada dataset penalaran matematika dan red teaming.
- Desain sederhana ini kompetitif dengan monitor canggih berbasis pengujian hipotesis berurutan.