Атаки диффузии между модальностями: обзор слияния атак, защит и оценки

Этот обзор объединяет четыре разрозненных направления adversarial-оценки — диффузионные атаки на текст и LLM, классификаторы изображений, vision-language модели и защиты по очистке входных данных — в единую концептуальную рамку. Он фокусируется на части, связанной с LLM, чтобы унифицировать терминологию, модели угроз и бенчмарки вокруг denoising diffusion как общего механизма генерации.

Систематизирует пятьдесят опубликованных статей по четырем областям охвата плюс четыре случая атаки на диффузионные LLM в роли жертвы и десять недиффузионных базовых моделей.
Предлагает таксономию из шести классов ролей diffusion в adversarial-пайплайнах, дополненную осью модели угроз для знания атакующего, бюджета запросов и доступности цели.
Применяет рамку из пяти измерений (скорость успешной атаки, переносимость, бюджет запросов, perplexity, обход защиты) единообразно ко всем модальностям.
Охватывает четыре диффузионные защиты, которые формируют естественный контекст оценки для новых атак наряду с каталогом атак.

Обзор выявляет пять повторяющихся слабостей в текущей литературе по LLM и предлагает исследовательскую повестку с открытыми вопросами и конкретными экспериментальными дизайнами для руководства будущими работами.