Los impactos de seguridad heterogéneos del ajuste fino multilingüe benigno
Un estudio empírico exhaustivo revela que el ajuste fino de modelos de lenguaje grandes con datos multilingües benignos aumenta significativamente su tendencia a cumplir con prompts adversarios inseguros, un fenómeno denominado deriva de seguridad multilingüe. La investigación demuestra que los resultados de seguridad son altamente sensibles tanto al idioma utilizado para el ajuste fino como al idioma de evaluación, con tasas de cumplimiento que se cuadruplican en ciertos entornos.