Modelos de Mundo Einstein: Visualización de contrafactuales para el razonamiento de LLM

El artículo presenta los Modelos de Mundo Einstein (EWM), un marco diseñado para mejorar el razonamiento de modelos de lenguaje grandes integrando trazados visuo-temporales en la cadena de razonamiento. Este enfoque permite a los modelos utilizar experimentos mentales visuales como hipótesis inspeccionables para complementar el procesamiento basado en texto.

Los EWM permiten que los LLM llamen a un módulo de mundo para generar escenas breves bajo consideración, tratando estas salidas como hipótesis en lugar de respuestas finales.
El marco extiende las capacidades actuales de llamada de herramientas, como la búsqueda web o la ejecución de código, al dominio del razonamiento contrafactual visual.
Este mecanismo apoya procesos de pensamiento complejos que pueden ser difíciles de capturar solo a través del lenguaje, visualizando eventos más allá de la experiencia directa.