arxiv arXiv cs.CL · 1 小时前 · research

LLM的在线安全监控

译自 English → 中文

本文探讨了大型语言模型在部署期间不安全输出的持续性，并提出了一种实时监控解决方案。它引入了一个简单的监控器，通过将外部模型的验证器信号转换为警报决策，并使用阈值进行控制，阈值通过风险控制进行校准。

该方法使用对验证器信号的阈值化来生成警报。
阈值使用风险控制技术进行校准。
实验在数学推理和红队数据集上进行。
简单的设计与基于顺序假设检验的高级监控器具有竞争力。

重要性 1/3 arXiv cs.CL Evaluation & benchmarks Safety & alignment