Un estudio desafía la suposición de que las señales de atención visual indican fiabilidad en los modelos de visión y lenguaje. Encuentra una correlación cercana a cero entre la atención espacial y la precisión, mostrando en cambio que la autoconsistencia a través de las rutas de razonamiento es un predictor más fuerte de la verdad. La fiabilidad se explica mejor por la dinámica de generación y las distribuciones del estado interno, no por los patrones de atención visual.
Las imágenes engañan, la consistencia habla: Desacoplar la atención espacial de la fiabilidad en modelos de visión y lenguaje
Traducido del English → Español