Artikel ini membahas persistensi output yang tidak aman pada model bahasa besar selama deployment dan mengusulkan solusi pemantauan real-time. Artikel ini memperkenalkan monitor sederhana yang mengonversi sinyal verifier dari model eksternal menjadi keputusan alarm melalui thresholding, dengan ambang batas yang dikalibrasi melalui kontrol risiko.

  • Metode ini menggunakan thresholding pada sinyal verifier untuk menghasilkan alarm.
  • Ambang batas dikalibrasi menggunakan teknik kontrol risiko.
  • Eksperimen dilakukan pada dataset penalaran matematika dan red teaming.
  • Desain sederhana ini kompetitif dengan monitor canggih berbasis pengujian hipotesis berurutan.