Encuesta de estrategias de detección y mitigación de toxicidad para modelos de lenguaje multilingües

Esta encuesta sintetiza investigaciones sobre estrategias de detección de toxicidad y desintoxicación diseñadas específicamente para modelos de lenguaje grandes multilingües. Cataloga modelos de amenaza que explotan variaciones lingüísticas como el cambio de código, diferencias ortográficas y pivotes de traducción para evadir las alineaciones de seguridad. Los autores organizan el trabajo existente en formulaciones de tareas como la reescritura tóxico-a-neutral y la clasificación, junto con varios enfoques de detección que incluyen codificadores multilingües y detectores basados en LLM. Las estrategias de mitigación se detallan a través del filtrado de datos, ajuste supervisado, dirección durante la decodificación y la implementación de barreras de seguridad multilingües. El análisis destaca desafíos persistentes en el campo, notablemente la cobertura desigual de idiomas y los protocolos de evaluación fragmentados. Además, aborda la complejidad de las definiciones culturalmente contingentes de daño y el riesgo de que los esfuerzos de desintoxicación puedan suprimir expresiones dialectales o relacionadas con la identidad legítimas.