Generación de video autónoma con controlabilidad contrafáctica para modelos del mundo autoevolutivos
El artículo sostiene que los modelos actuales de generación de video aprenden solo modelos del mundo espaciotemporales parciales e implícitos, en lugar de completamente fundamentados o controlables. Afirma que la realismo predictivo por sí solo es insuficiente para crear agentes físicos porque estos modelos a menudo fallan al identificar variables controlables y restricciones de encarnación.