Les chercheurs proposent PhysMani, un cadre qui couple un modèle de monde gaussien 3D fondé sur la physique avec un modèle de politique d'action conscient du futur pour relever les défis de la manipulation de cibles en mouvement rapide dans des environnements 3D non structurés.
- Le modèle de monde apprend un champ de vitesse gaussien sans divergence via une optimisation en ligne pour une prédiction de dynamique future ancrée physiquement.
- Le modèle de politique intègre les dynamiques futures prédites de la scène 3D via un module d'attention croisée basé sur des jetons apprenable.
- Les auteurs introduisent PhysMani-Bench, un benchmark de manipulation dynamique composé de 16 tâches.
- PhysMani démontre un taux de réussite supérieur aux bases solides tant dans les simulations que dans les expériences robotiques réelles.
Cette approche fournit une géométrie 3D précise et des prévisions physiquement significatives pour les systèmes d'IA incarnée.