LeanGuard: Un enfoque rápido y ligero para la moderación robusta
Este artículo investiga si las barreras de seguridad realmente requieren razonamiento en cadena mediante el entrenamiento de un codificador bidireccional ligero junto con una barrera basada en razonamiento sobre el mismo corpus. Los autores encuentran que eliminar el razonamiento no mejora la precisión de la moderación, desafiando la creencia común de que el pensamiento paso a paso es necesario para una moderación efectiva.