本文探讨了大型语言模型在部署期间不安全输出的持续性,并提出了一种实时监控解决方案。它引入了一个简单的监控器,通过将外部模型的验证器信号转换为警报决策,并使用阈值进行控制,阈值通过风险控制进行校准。

  • 该方法使用对验证器信号的阈值化来生成警报。
  • 阈值使用风险控制技术进行校准。
  • 实验在数学推理和红队数据集上进行。
  • 简单的设计与基于顺序假设检验的高级监控器具有竞争力。