PHANTOM: Un conjunto de datos a gran escala de ataques adversarios multimodales para modelos de visión y lenguaje

Los investigadores han presentado PHANTOM, un conjunto de datos a gran escala y de código abierto que contiene 47.524 ataques adversarios pregenerados diseñados para evaluar la seguridad y robustez de los modelos de visión y lenguaje (VLMs). Este recurso consolida y amplía benchmarks anteriores al cubrir 10 categorías de alto nivel y 55 subcategorías de intenciones dañinas, con el objetivo de reducir las barreras computacionales para la investigación adversarial.

El conjunto de datos comprende 47.524 muestras adversarias generadas utilizando estrategias de ataque de última generación de la literatura reciente.
Cubre 10 categorías de alto nivel y 55 subcategorías de intenciones dañinas, consolidando 7.826 intenciones de fuentes establecidas.
El recurso está diseñado para ayudar a los investigadores a evaluar sistemáticamente la robustez de los VLMs, ajustar modelos de generación de ataques y realizar pruebas de estrés en las barreras defensivas.

Al liberar este conjunto de datos exhaustivo, los autores tienen como objetivo fomentar evaluaciones más reproducibles y comparables de la seguridad de los VLMs, al tiempo que hacen que los datos adversarios sean accesibles para la comunidad de investigación en general.