Los investigadores presentan HaloGuard 1.0, una implementación de pesos abiertos del paradigma de clasificador constitucional diseñada para mejorar la seguridad de entrada en múltiples idiomas. El modelo utiliza una constitución en lenguaje natural con 46 políticas y 2.940 subcategorías para impulsar la generación de datos sintéticos y manejar entradas multilingües.

  • HaloGuard 1.0-0.8B alcanza una puntuación F1 promedio de 90.7 en siete benchmarks de seguridad de prompts, superando a las líneas base de hasta 27B parámetros mientras mantiene una tasa de falsos positivos del 4.3 y una tasa de falsos negativos del 9.5.
  • La variante más grande HaloGuard 1.0-4B alcanza una puntuación F1 promedio de 92.1 con una tasa de falsos positivos del 3.5, priorizando la precisión sobre el recall.
  • El corpus de entrenamiento emplea contrafactuales apareados uno a uno exhaustivos que invierten la intención manteniendo fijos el tema y el vocabulario para reducir los falsos positivos.

La materialización multilingüe trata el idioma como una forma superficial en 46 idiomas en lugar de una señal adversarial.

El lanzamiento proporciona un modelo de guardia altamente eficiente y de código abierto que reduce significativamente el recuento de parámetros requerido para el rendimiento de seguridad multilingüe de última generación.