Исследователи представили PHANTOM, крупномасштабный набор данных с открытым исходным кодом, содержащий 47 524 предварительно сгенерированных атак противника, предназначенных для оценки безопасности и устойчивости моделей зрения и языка (VLM). Этот ресурс консолидирует и расширяет предыдущие бенчмарки, охватывая 10 высокоуровневых категорий и 55 подкатегорий вредоносных намерений, стремясь снизить вычислительные барьеры для исследований в области атак противника.
- Набор данных включает 47 524 образца атак, сгенерированных с использованием передовых стратегий атак из недавних публикаций.
- Он охватывает 10 высокоуровневых категорий и 55 подкатегорий вредоносных намерений, консолидируя 7 826 намерений из установленных источников.
- Ресурс предназначен для помощи исследователям в систематической оценке устойчивости VLM, тонкой настройки моделей генерации атак и стресс-тестирования защитных ограничителей.
Выпуская этот комплексный набор данных, авторы стремятся способствовать более воспроизводимым и сопоставимым оценкам безопасности VLM, а также сделать данные для атак противника доступными для более широкого научного сообщества.