Визуальные данные лгут, согласованность говорит: разъединение пространственной внимательности от надежности в визуально-языковых моделях
Исследование подвергает сомнению предположение о том, что визуальные сигналы внимания отражают надежность в визуально-языковых моделях. Оно показывает почти нулевую корреляцию между пространственной внимательностью и точностью, демонстрируя, что согласованность по всем путям рассуждения является более сильным предиктором истины. Надежность лучше объясняется динамикой генерации и распределения внутренних состояний, а не визуальными паттернами внимания.