LeanGuard: Un enfoque rápido y ligero para la moderación robusta

Este artículo investiga si las barreras de seguridad realmente requieren razonamiento en cadena mediante el entrenamiento de un codificador bidireccional ligero junto con una barrera basada en razonamiento sobre el mismo corpus. Los autores encuentran que eliminar el razonamiento no mejora la precisión de la moderación, desafiando la creencia común de que el pensamiento paso a paso es necesario para una moderación efectiva.

Un codificador solo de etiquetas de 395M parámetros logra un F1 promedio de 82.90 ± 0.26 en benchmarks públicos.
El modelo iguala el rendimiento de una barrera de razonamiento mucho más grande construida sobre una arquitectura de decodificador.
La inferencia requiere solo un pase hacia adelante para entradas de hasta 512 tokens, lo que resulta en una reducción de aproximadamente 100x en el cómputo.
El codificador solo de etiquetas demuestra mayor robustez ante ruido en las etiquetas de entrenamiento y retiene una mayor tasa de recuperación a tasas estrictas de falsos positivos en comparación con la barrera de razonamiento.

Los hallazgos sugieren que los benchmarks actuales de barreras de seguridad pueden no ser lo suficientemente difíciles para recompensar el razonamiento y que la necesidad del pensamiento en cadena para la moderación sigue sin demostrarse, ofreciendo una solución más eficiente para el despliegue en dispositivos.