PHANTOM: Un conjunto de datos a gran escala de ataques adversarios multimodales para modelos de visión y lenguaje

Los autores presentan PHANTOM, un conjunto de datos abierto y a gran escala que contiene 47.524 ataques adversarios pregenerados diseñados para evaluar la seguridad y robustez de los modelos de visión y lenguaje (VLMs). Este recurso consolida las evaluaciones existentes y las extiende con nuevas categorías para proporcionar datos de evaluación diversos y prácticos para la comunidad investigadora.

El conjunto de datos abarca 10 categorías de alto nivel y 55 subcategorías de intenciones dañinas, totalizando 7.826 intenciones distintas.
Incluye 47.524 muestras adversarias generadas utilizando estrategias de ataque de última generación de la literatura reciente.
PHANTOM busca reducir las barreras computacionales para los investigadores al proporcionar datos pregenerados en lugar de requerir una nueva generación.
El recurso permite la evaluación sistemática de la robustez de los VLMs, el ajuste fino de modelos de generación de ataques y la prueba de estrés de las barreras defensivas.

Al liberar este conjunto de datos integral, los autores tienen como objetivo fomentar evaluaciones más reproducibles, comparables y extensas de la seguridad de los VLMs, mientras habilitan a los profesionales para desarrollar medidas defensivas efectivas bajo diversas condiciones adversarias.