Detectar, Desaprender, Restaurar: Defender Modelos de Resumen de Texto Contra el Envenenamiento de Datos

El estudio aborda la amenaza del envenenamiento de datos durante el entrenamiento en el ajuste fino de modelos de resumen de texto abstractivo. Los adversarios manipulan pequeños conjuntos de datos específicos de la tarea para inducir fallos persistentes en el resumen mientras mantienen las métricas de evaluación estándar. Se propone un marco de defensa post-hoc unificado para detectar y remediar el envenenamiento a lo largo de la cadena de suministro de aprendizaje automático. En configuraciones de caja blanca, la detección se basa en el análisis de funciones de influencia que identifica una influencia de entrenamiento anormalmente alta en pares envenenados. Las defensas de caja negra utilizan auditorías conductuales basadas en una mayor sensibilidad a perturbaciones que preservan la semántica. Los autores introducen ataques novedosos dirigidos a la distorsión factual y al sesgo representacional que evaden las alarmas convencionales. Los experimentos en nueve arquitecturas y seis conjuntos de datos muestran una precisión de detección del 85-92% para las defensas propuestas. El desaprendizaje por ascenso de gradiente restaura hasta el 96% del comportamiento original con menos de una degradación del 0.6% en ROUGE.