El artículo desafía la dicotomía entre los grandes modelos de lenguaje y los modelos del mundo al argumentar que los LLM son en realidad un caso especial degenerado de modelos del mundo, en lugar de un reemplazo. Plantea que existe un espectro continuo desde la predicción del siguiente token hasta las arquitecturas de espacio latente, con la investigación actual ocupando ya posiciones intermedias.

  • El espacio de estados para los LLM se define como el conjunto de todas las secuencias de tokens con una única acción: añadir un solo token.
  • Los modelos del mundo se presentan como una generalización estricta de este marco en lugar de un paradigma alternativo.
  • Existe un espectro continuo entre la predicción del siguiente token y JEPA, poblado por métodos de predicción de múltiples tokens y resúmenes futuros.
  • Avanzar a lo largo de este espectro relaja progresivamente las restricciones de los LLM mientras se renuncia a las ventajas de los datos de auto-supervisión a escala de internet y la arquitectura transformer.

Los autores identifican dos preguntas de investigación abiertas sobre la transición: si los datos de texto de auto-supervisión pueden escalar a entornos con acciones etiquetadas e instrumentadas, y si los transformers se generalizan a la predicción de estados continuos.