Атаки диффузии между модальностями: обзор слияния атак, защит и оценки
Этот обзор объединяет четыре разрозненных направления adversarial-оценки — диффузионные атаки на текст и LLM, классификаторы изображений, vision-language модели и защиты по очистке входных данных — в единую концептуальную рамку. Он фокусируется на части, связанной с LLM, чтобы унифицировать терминологию, модели угроз и бенчмарки вокруг denoising diffusion как общего механизма генерации.