Авторы представляют PHANTOM, крупномасштабный открытый набор данных, содержащий 47 524 предварительно сгенерированных состязательных атак, предназначенных для оценки безопасности и устойчивости моделей зрения и языка (VLM). Этот ресурс объединяет существующие бенчмарки и расширяет их новыми категориями, предоставляя разнообразные и практические данные для оценки исследовательскому сообществу.
- Набор данных охватывает 10 высокоуровневых категорий и 55 подкатегорий вредоносных намерений, всего 7 826 различных намерений.
- Он включает 47 524 состязательных образца, сгенерированных с использованием передовых стратегий атак из недавней литературы.
- PHANTOM стремится снизить вычислительные барьеры для исследователей, предоставляя предварительно сгенерированные данные вместо необходимости их новой генерации.
- Ресурс поддерживает систематическую оценку устойчивости VLM, тонкую настройку моделей генерации атак и стресс-тестирование защитных ограничителей.
Выпуская этот комплексный набор данных, авторы стремятся способствовать более воспроизводимым, сопоставимым и обширным оценкам безопасности VLM, а также позволять практикующим специалистам разрабатывать эффективные защитные меры в условиях разнообразных состязательных воздействий.