Pemantauan Keamanan Online untuk LLM

Artikel ini membahas persistensi output yang tidak aman pada model bahasa besar selama deployment dan mengusulkan solusi pemantauan real-time. Artikel ini memperkenalkan monitor sederhana yang mengonversi sinyal verifier dari model eksternal menjadi keputusan alarm melalui thresholding, dengan ambang batas yang dikalibrasi melalui kontrol risiko.

Metode ini menggunakan thresholding pada sinyal verifier untuk menghasilkan alarm.
Ambang batas dikalibrasi menggunakan teknik kontrol risiko.
Eksperimen dilakukan pada dataset penalaran matematika dan red teaming.
Desain sederhana ini kompetitif dengan monitor canggih berbasis pengujian hipotesis berurutan.