Авторы представляют PHANTOM, крупномасштабный открытый набор данных, содержащий 47 524 предварительно сгенерированных состязательных атак, предназначенных для оценки безопасности и устойчивости моделей зрения и языка (VLM). Этот ресурс объединяет существующие бенчмарки и расширяет их новыми категориями, предоставляя разнообразные и практические данные для оценки исследовательскому сообществу.

  • Набор данных охватывает 10 высокоуровневых категорий и 55 подкатегорий вредоносных намерений, всего 7 826 различных намерений.
  • Он включает 47 524 состязательных образца, сгенерированных с использованием передовых стратегий атак из недавней литературы.
  • PHANTOM стремится снизить вычислительные барьеры для исследователей, предоставляя предварительно сгенерированные данные вместо необходимости их новой генерации.
  • Ресурс поддерживает систематическую оценку устойчивости VLM, тонкую настройку моделей генерации атак и стресс-тестирование защитных ограничителей.

Выпуская этот комплексный набор данных, авторы стремятся способствовать более воспроизводимым, сопоставимым и обширным оценкам безопасности VLM, а также позволять практикующим специалистам разрабатывать эффективные защитные меры в условиях разнообразных состязательных воздействий.