PHANTOM: крупномасштабный набор данных мультимодальных состязательных атак для моделей зрения и языка

Авторы представляют PHANTOM, крупномасштабный открытый набор данных, содержащий 47 524 предварительно сгенерированных состязательных атак, предназначенных для оценки безопасности и устойчивости моделей зрения и языка (VLM). Этот ресурс объединяет существующие бенчмарки и расширяет их новыми категориями, предоставляя разнообразные и практические данные для оценки исследовательскому сообществу.

Набор данных охватывает 10 высокоуровневых категорий и 55 подкатегорий вредоносных намерений, всего 7 826 различных намерений.
Он включает 47 524 состязательных образца, сгенерированных с использованием передовых стратегий атак из недавней литературы.
PHANTOM стремится снизить вычислительные барьеры для исследователей, предоставляя предварительно сгенерированные данные вместо необходимости их новой генерации.
Ресурс поддерживает систематическую оценку устойчивости VLM, тонкую настройку моделей генерации атак и стресс-тестирование защитных ограничителей.

Выпуская этот комплексный набор данных, авторы стремятся способствовать более воспроизводимым, сопоставимым и обширным оценкам безопасности VLM, а также позволять практикующим специалистам разрабатывать эффективные защитные меры в условиях разнообразных состязательных воздействий.