Difusión adversarial entre modalidades: Una encuesta de fusión de ataques, defensas y evaluación
Esta encuesta integra cuatro vías desconectadas de evaluación adversarial—ataques basados en difusión sobre texto y LLMs, clasificadores de imágenes, modelos visión-lenguaje y defensas de purificación de entrada—en un único marco conceptual. Se centra en la sección de los LLMs para unificar el vocabulario, los modelos de amenaza y las pruebas en torno a la difusión de denoising como un mecanismo generativo compartido.