PHANTOM: Un conjunto de datos a gran escala de ataques adversarios multimodales para modelos de visión y lenguaje
Los investigadores han presentado PHANTOM, un conjunto de datos a gran escala y de código abierto que contiene 47.524 ataques adversarios pregenerados diseñados para evaluar la seguridad y robustez de los modelos de visión y lenguaje (VLMs). Este recurso consolida y amplía benchmarks anteriores al cubrir 10 categorías de alto nivel y 55 subcategorías de intenciones dañinas, con el objetivo de reducir las barreras computacionales para la investigación adversarial.