arxiv arXiv cs.CL · 8d ago · src: 9d ago · research

Visuals Lie, Consistency Speaks: Disentangling Spatial Attention from Reliability in Vision-Language Models

from English

A study challenges the assumption that visual attention signals reliability in vision-language models. It finds near-zero correlation between spatial attention and accuracy, showing instead that self-consistency across reasoning paths is a stronger predictor of truth. Reliability is better explained by generation dynamics and internal state distributions, not visual attention patterns.

Importance 3/3 New feature vs. leaders New harness with differentiators arXiv cs.CL Mistral AI Alibaba (Qwen) DeepSeek Evaluation & benchmarks Multimodal Reasoning models

Read original