Difusión adversarial entre modalidades: Una encuesta de fusión de ataques, defensas y evaluación

Esta encuesta integra cuatro vías desconectadas de evaluación adversarial—ataques basados en difusión sobre texto y LLMs, clasificadores de imágenes, modelos visión-lenguaje y defensas de purificación de entrada—en un único marco conceptual. Se centra en la sección de los LLMs para unificar el vocabulario, los modelos de amenaza y las pruebas en torno a la difusión de denoising como un mecanismo generativo compartido.

Cataloga cincuenta artículos publicados en cuatro áreas de alcance más cuatro entradas de difusión-LLM-víctima y diez líneas base no basadas en difusión.
Propone una taxonomía de seis clases de roles de difusión en tuberías adversariales, ampliada con un eje de modelo de amenaza para el conocimiento del atacante, el presupuesto de consultas y la accesibilidad del objetivo.
Aplica un marco de cinco dimensiones (tasa de éxito del ataque, transferibilidad, presupuesto de consultas, perplejidad, evasión de defensa) uniformemente entre modalidades.
Cubre cuatro defensas basadas en difusión que forman el telón de fondo natural de evaluación para nuevos ataques junto con el catálogo de ataques.

La revisión identifica cinco debilidades recurrentes en la literatura actual de LLMs y proporciona una agenda de investigación con preguntas abiertas y diseños experimentales concretos para guiar el trabajo futuro.