Статья оспаривает дихотомию между большими языковыми моделями и мировыми моделями, утверждая, что LLM на самом деле являются вырожденным частным случаем мировых моделей, а не их заменой. Предполагается, что существует непрерывный спектр от предсказания следующего токена до архитектур в латентном пространстве, при этом текущие исследования уже занимают промежуточные позиции.

  • Пространство состояний для LLM определяется как множество всех последовательностей токенов с единственным действием: добавлением одного токена.
  • Мировые модели представлены как строгая обобщающая структура этой рамки, а не альтернативная парадигма.
  • Между предсказанием следующего токена и JEPA существует непрерывный спектр, заполненный методами предсказания нескольких токенов и сводки будущего.
  • Движение вдоль этого спектра постепенно снимает ограничения LLM, одновременно отказываясь от преимуществ самоконтролируемого обучения на данных интернетного масштаба и архитектуры трансформеров.

Авторы выделяют два открытых вопроса исследования относительно перехода: может ли самоконтролируемое текстовое данные масштабироваться до сред с инструментальными действиями и метками, а также обобщаются ли трансформеры для предсказания в непрерывных состояниях.