В статье утверждается, что современные модели генерации видео изучают лишь частичные, неявные пространственно-временные модели мира, а не полностью обоснованные или управляемые. Утверждается, что одного предиктивного реализма недостаточно для создания физических агентов, поскольку такие модели часто не способны идентифицировать управляемые переменные и ограничения воплощения.

  • Существующая литература утверждает, что генерация видео по сути представляет собой моделирование мира, продвигая ИИ к физическим сценам с длительной временной перспективой.
  • Авторы утверждают, что масштабирование визуального прогнозирования не приводит автоматически к появлению физических агентов, способных понимать управляемость.
  • Предлагаемое решение подчеркивает контрфактическую управляемость как решающий критерий для самоэволюционирующей генеративной природы.
  • Этот подход включает проверку того, выживают ли сгенерированные будущие в рамках ограничений воплощения, и передачу знаний об действиях обратно в процесс воображения будущего.

Авторы считают эту перспективу важной, поскольку она предоставляет путь к реализации самоэволюционирующих моделей мира через автономную генерацию видео с контрфактической управляемостью.