研究者らは、複数の言語にわたる入力安全性を向上させるために設計された憲法分類器パラダイムのオープンウェイト実装であるHaloGuard 1.0を発表した。このモデルは、46のポリシーと2,940のサブカテゴリを持つ自然言語憲法を利用し、合成データの生成と多言語入力の処理を駆動する。
- HaloGuard 1.0-0.8Bは、7つのプロンプト安全性ベンチマークで平均F1スコア90.7を達成し、誤検知率4.3%と偽陰性率9.5%を維持しながら、最大27Bパラメータのベースラインを上回る。
- より大規模なHaloGuard 1.0-4Bバリアントは、再現率よりも精度を優先し、平均F1スコア92.1と誤検知率3.5%を達成する。
- トレーニングコーパスは、トピックと語彙を固定したまま意図を反転させる包括的な一対一の対応反事実的データを用い、誤検知を削減する。
- 多言語化は、46の言語にわたって言語を敵対的シグナルではなく表面形式として扱う。
今回のリリースにより、最先端の多言語安全性パフォーマンスに必要なパラメータ数を大幅に削減する、非常に効率的なオープンソースのガードモデルが提供される。