Los investigadores proponen PhysMani, un marco que acopla un modelo de mundo 3D Gaussiano basado en principios físicos con un modelo de política de acciones consciente del futuro para abordar los desafíos de manipular objetivos en movimiento rápido en entornos 3D no estructurados.

  • El modelo de mundo aprende un campo de velocidad gaussiano libre de divergencia mediante optimización en línea para la predicción de dinámica futura basada en física.
  • El modelo de política integra la dinámica futura de la escena 3D predicha a través de un módulo de atención cruzada basado en tokens y aprendible.
  • Los autores presentan PhysMani-Bench, un benchmark de manipulación dinámica que consta de 16 tareas.
  • PhysMani demuestra una tasa de éxito superior frente a las bases fuertes tanto en simulaciones como en experimentos con robots del mundo real.

Este enfoque proporciona geometría 3D precisa y pronósticos físicamente significativos para sistemas de IA encarnada.