Этот обзор объединяет четыре разрозненных направления adversarial-оценки — диффузионные атаки на текст и LLM, классификаторы изображений, vision-language модели и защиты по очистке входных данных — в единую концептуальную рамку. Он фокусируется на части, связанной с LLM, чтобы унифицировать терминологию, модели угроз и бенчмарки вокруг denoising diffusion как общего механизма генерации.

  • Систематизирует пятьдесят опубликованных статей по четырем областям охвата плюс четыре случая атаки на диффузионные LLM в роли жертвы и десять недиффузионных базовых моделей.
  • Предлагает таксономию из шести классов ролей diffusion в adversarial-пайплайнах, дополненную осью модели угроз для знания атакующего, бюджета запросов и доступности цели.
  • Применяет рамку из пяти измерений (скорость успешной атаки, переносимость, бюджет запросов, perplexity, обход защиты) единообразно ко всем модальностям.
  • Охватывает четыре диффузионные защиты, которые формируют естественный контекст оценки для новых атак наряду с каталогом атак.

Обзор выявляет пять повторяющихся слабостей в текущей литературе по LLM и предлагает исследовательскую повестку с открытыми вопросами и конкретными экспериментальными дизайнами для руководства будущими работами.