В статье представлены мировые модели Эйнштейна (EWMs) — фреймворк, предназначенный для улучшения рассуждений больших языковых моделей за счёт интеграции визуальных временных разверток в цепочку рассуждений. Этот подход позволяет моделям использовать мысленные эксперименты в качестве проверяемых гипотез для дополнения обработки на основе текста.

  • EWMs позволяют LLM вызывать модуль мира для генерации коротких сценариев, находящихся в фокусе внимания, рассматривая эти результаты как гипотезы, а не окончательные ответы.
  • Фреймворк расширяет текущие возможности вызова инструментов, такие как поиск в интернете или выполнение кода, в область визуального контрфактического рассуждения.
  • Этот механизм поддерживает сложные мыслительные процессы, которые трудно уловить только с помощью языка, визуализируя события за пределами непосредственного опыта.