Peneliti menyajikan HaloGuard 1.0, implementasi bobot terbuka dari paradigma pengklasifikasi konstitusional yang dirancang untuk meningkatkan keamanan input di berbagai bahasa. Model ini menggunakan konstitusi bahasa alami dengan 46 kebijakan dan 2.940 subkategori untuk mendorong generasi data sintetis dan menangani input multibahasa.

  • HaloGuard 1.0-0.8B mencapai skor F1 rata-rata 90,7 pada tujuh benchmark keamanan prompt, mengungguli baseline hingga 27 miliar parameter sambil mempertahankan tingkat false-positive sebesar 4,3 dan tingkat false-negative sebesar 9,5.
  • Varian yang lebih besar HaloGuard 1.0-4B mencapai skor F1 rata-rata 92,1 dengan tingkat false-positive 3,5, mengutamakan presisi daripada recall.
  • Korpus pelatihan menggunakan counterfactual berpasangan satu-satu yang menyeluruh yang membalik niat sambil mempertahankan topik dan kosakata tetap untuk mengurangi false-positive.
  • Materialisasi multibahasa memperlakukan bahasa sebagai bentuk permukaan di 46 bahasa daripada sinyal adversarial.

Rilis ini menyediakan model guard open-source yang sangat efisien yang secara signifikan mengurangi jumlah parameter yang diperlukan untuk kinerja keamanan multibahasa state-of-the-art.