本記事は、デプロイメント時の大規模言語モデルにおける不安全な出力の持続性に対処し、リアルタイムのモニタリングソリューションを提案します。外部モデルからの検証者信号を閾値処理によってアラーム判断に変換するシンプルなモニターを導入し、閾値はリスク制御を通じてキャリブレーションされます。

  • 本手法は、検証者信号に対する閾値処理を用いてアラームを生成する。
  • 閾値はリスク制御技術を用いてキャリブレーションされる。
  • 数学的推論およびレッドチームングデータセットで実験を実施した。
  • シンプルな設計は、逐次仮説検定に基づく高度なモニターと競争力を持つ。