Les chercheurs présentent HaloGuard 1.0, une implémentation à poids ouverts du paradigme du classificateur constitutionnel conçue pour améliorer la sécurité des entrées sur plusieurs langues. Le modèle utilise une constitution en langage naturel avec 46 politiques et 2 940 sous-catégories pour piloter la génération de données synthétiques et gérer les entrées multilingues.
- HaloGuard 1.0-0.8B atteint un score F1 moyen de 90,7 sur sept benchmarks de sécurité des prompts, surpassant les bases jusqu'à 27 milliards de paramètres tout en maintenant un taux de faux positifs de 4,3 et un taux de faux négatifs de 9,5.
- La variante plus grande HaloGuard 1.0-4B atteint un score F1 moyen de 92,1 avec un taux de faux positifs de 3,5, privilégiant la précision par rapport au rappel.
- Le corpus d'entraînement emploie des contre-factuels appariés exhaustifs un-à-un qui inversent l'intention tout en maintenant le sujet et le vocabulaire fixes pour réduire les faux positifs.
- La matérialisation multilingue traite la langue comme une forme de surface sur 46 langues plutôt que comme un signal adversarial.
La publication fournit un modèle de garde open-source très efficace qui réduit considérablement le nombre de paramètres requis pour des performances de sécurité multilingue de pointe.