Pesquisadores apresentam o HaloGuard 1.0, uma implementação de pesos abertos do paradigma de classificador constitucional projetada para melhorar a segurança de entrada em vários idiomas. O modelo utiliza uma constituição em linguagem natural com 46 políticas e 2.940 subcategorias para impulsionar a geração de dados sintéticos e lidar com entradas multilíngues.
- HaloGuard 1.0-0.8B alcança uma pontuação F1 média de 90.7 em sete benchmarks de segurança de prompts, superando linhas de base de até 27B parâmetros enquanto mantém uma taxa de falsos positivos de 4.3 e uma taxa de falsos negativos de 9.5.
- A variante maior HaloGuard 1.0-4B alcança uma pontuação F1 média de 92.1 com uma taxa de falsos positivos de 3.5, priorizando precisão em vez de recall.
- O corpus de treinamento emprega contrafactuais pareados um-a-um exaustivos que invertem a intenção mantendo o tópico e o vocabulário fixos para reduzir falsos positivos.
- A materialização multilíngue trata o idioma como uma forma superficial em 46 idiomas, em vez de um sinal adversarial.
O lançamento fornece um modelo de guarda altamente eficiente e de código aberto que reduz significativamente a contagem de parâmetros necessária para o desempenho de segurança multilíngue de última geração.