Certificación de robustez semántica para modelos de visión y lenguaje

Este trabajo presenta un marco que certifica la robustez de los modelos de visión y lenguaje bajo transformaciones a nivel semántico, utilizando prompts de texto como proxies. Cuantifica intervalos de extensión para los cuales las predicciones permanecen sin cambios, sin requerir datos adicionales para cada variación. Los experimentos en datos sintéticos y del mundo real demuestran su efectividad a través de diversas variaciones semánticas.