Los autores presentan PHANTOM, un conjunto de datos abierto y a gran escala que contiene 47.524 ataques adversarios pregenerados diseñados para evaluar la seguridad y robustez de los modelos de visión y lenguaje (VLMs). Este recurso consolida las evaluaciones existentes y las extiende con nuevas categorías para proporcionar datos de evaluación diversos y prácticos para la comunidad investigadora.

  • El conjunto de datos abarca 10 categorías de alto nivel y 55 subcategorías de intenciones dañinas, totalizando 7.826 intenciones distintas.
  • Incluye 47.524 muestras adversarias generadas utilizando estrategias de ataque de última generación de la literatura reciente.
  • PHANTOM busca reducir las barreras computacionales para los investigadores al proporcionar datos pregenerados en lugar de requerir una nueva generación.
  • El recurso permite la evaluación sistemática de la robustez de los VLMs, el ajuste fino de modelos de generación de ataques y la prueba de estrés de las barreras defensivas.

Al liberar este conjunto de datos integral, los autores tienen como objetivo fomentar evaluaciones más reproducibles, comparables y extensas de la seguridad de los VLMs, mientras habilitan a los profesionales para desarrollar medidas defensivas efectivas bajo diversas condiciones adversarias.