Этот обзор объединяет четыре разрозненных направления adversarial-оценки — диффузионные атаки на текст и LLM, классификаторы изображений, vision-language модели и защиты по очистке входных данных — в единую концептуальную рамку. Он фокусируется на части, связанной с LLM, чтобы унифицировать терминологию, модели угроз и бенчмарки вокруг denoising diffusion как общего механизма генерации.
- Систематизирует пятьдесят опубликованных статей по четырем областям охвата плюс четыре случая атаки на диффузионные LLM в роли жертвы и десять недиффузионных базовых моделей.
- Предлагает таксономию из шести классов ролей diffusion в adversarial-пайплайнах, дополненную осью модели угроз для знания атакующего, бюджета запросов и доступности цели.
- Применяет рамку из пяти измерений (скорость успешной атаки, переносимость, бюджет запросов, perplexity, обход защиты) единообразно ко всем модальностям.
- Охватывает четыре диффузионные защиты, которые формируют естественный контекст оценки для новых атак наряду с каталогом атак.
Обзор выявляет пять повторяющихся слабостей в текущей литературе по LLM и предлагает исследовательскую повестку с открытыми вопросами и конкретными экспериментальными дизайнами для руководства будущими работами.