研究人员展示了 HaloGuard 1.0,这是一种旨在提高多语言输入安全性的宪法分类器范式的开放权重实现。该模型利用包含 46 项政策和 2,940 个子类别的自然语言宪法来驱动合成数据生成并处理多语言输入。

  • HaloGuard 1.0-0.8B 在七个提示安全性基准测试中取得了 90.7 的平均 F1 分数,在保持 4.3 的假阳性率和 9.5 的假阴性率的同时,优于高达 27B 参数的基线模型。
  • 更大的 HaloGuard 1.0-4B 变体达到了 92.1 的平均 F1 分数,假阳性率为 3.5,优先考虑精确度而非召回率。
  • 训练语料库采用详尽的一对一配对反事实数据,在保持主题和词汇不变的情况下翻转意图,以减少假阳性。
  • 多语言实现将语言视为 46 种语言中的一种表层形式,而非对抗性信号。

此次发布提供了一款高效、开源的防护模型,显著降低了实现最先进的多语言安全性能所需的参数量。