В статье утверждается, что современные модели генерации видео изучают лишь частичные, неявные пространственно-временные модели мира, а не полностью обоснованные или управляемые. Утверждается, что одного предиктивного реализма недостаточно для создания физических агентов, поскольку такие модели часто не способны идентифицировать управляемые переменные и ограничения воплощения.
- Существующая литература утверждает, что генерация видео по сути представляет собой моделирование мира, продвигая ИИ к физическим сценам с длительной временной перспективой.
- Авторы утверждают, что масштабирование визуального прогнозирования не приводит автоматически к появлению физических агентов, способных понимать управляемость.
- Предлагаемое решение подчеркивает контрфактическую управляемость как решающий критерий для самоэволюционирующей генеративной природы.
- Этот подход включает проверку того, выживают ли сгенерированные будущие в рамках ограничений воплощения, и передачу знаний об действиях обратно в процесс воображения будущего.
Авторы считают эту перспективу важной, поскольку она предоставляет путь к реализации самоэволюционирующих моделей мира через автономную генерацию видео с контрфактической управляемостью.