El artículo presenta los Modelos de Mundo Einstein (EWM), un marco diseñado para mejorar el razonamiento de modelos de lenguaje grandes integrando trazados visuo-temporales en la cadena de razonamiento. Este enfoque permite a los modelos utilizar experimentos mentales visuales como hipótesis inspeccionables para complementar el procesamiento basado en texto.

  • Los EWM permiten que los LLM llamen a un módulo de mundo para generar escenas breves bajo consideración, tratando estas salidas como hipótesis en lugar de respuestas finales.
  • El marco extiende las capacidades actuales de llamada de herramientas, como la búsqueda web o la ejecución de código, al dominio del razonamiento contrafactual visual.
  • Este mecanismo apoya procesos de pensamiento complejos que pueden ser difíciles de capturar solo a través del lenguaje, visualizando eventos más allá de la experiencia directa.