Los investigadores han presentado PHANTOM, un conjunto de datos a gran escala y de código abierto que contiene 47.524 ataques adversarios pregenerados diseñados para evaluar la seguridad y robustez de los modelos de visión y lenguaje (VLMs). Este recurso consolida y amplía benchmarks anteriores al cubrir 10 categorías de alto nivel y 55 subcategorías de intenciones dañinas, con el objetivo de reducir las barreras computacionales para la investigación adversarial.
- El conjunto de datos comprende 47.524 muestras adversarias generadas utilizando estrategias de ataque de última generación de la literatura reciente.
- Cubre 10 categorías de alto nivel y 55 subcategorías de intenciones dañinas, consolidando 7.826 intenciones de fuentes establecidas.
- El recurso está diseñado para ayudar a los investigadores a evaluar sistemáticamente la robustez de los VLMs, ajustar modelos de generación de ataques y realizar pruebas de estrés en las barreras defensivas.
Al liberar este conjunto de datos exhaustivo, los autores tienen como objetivo fomentar evaluaciones más reproducibles y comparables de la seguridad de los VLMs, al tiempo que hacen que los datos adversarios sean accesibles para la comunidad de investigación en general.