Este artículo aborda el desafío del sobreajuste en modelos de lenguaje grandes utilizados en contextos de derecho penal del Tribunal Federal Suizo, donde las barreras de seguridad del modelo frecuentemente activan rechazos al procesar detalles sensibles de casos. Los autores presentan TF-RefusalBench, una evaluación multilingüe derivada de fallos públicos, para medir este fenómeno en francés, alemán, italiano e inglés.
- TF-RefusalBench contiene 5.200 instrucciones que cubren tareas comunes y pasajes propensos a generar rechazo en cuatro idiomas oficiales.
- El sobreajuste se identifica como un fenómeno multifacético influenciado por el modelo y los idiomas tanto de la instrucción como del texto.
- El impacto del sobreajuste se extiende más allá de los simples rechazos, afectando la fidelidad de la tarea debido a las advertencias.
- La abliteration, que implica la ablación de direcciones de rechazo, elimina el rechazo con un impacto mínimo en el rendimiento de la tarea en comparación con solo usar instrucciones.
El estudio demuestra que la abliteration es un enfoque efectivo para permitir que los modelos de lenguaje grandes locales manejen tareas de derecho penal sin activar las barreras de seguridad, apoyando así el trabajo legítimo que involucra descripciones de delitos violentos y sexuales.