MMGist es un benchmark multimodal curado con 7.262 elementos, diseñado para abordar las deficiencias de los benchmarks existentes de visión-lenguaje. Reduce el tamaño de la evaluación en un 69% y mejora la discriminación entre modelos en un 78%, mientras preserva el ranking de los modelos con una correlación de Spearman de 0,98. El benchmark destaca la lógica visual como una debilidad clave y enfatiza la importancia de la dependencia visual, el poder discriminatorio y la fiabilidad en la evaluación.