PhysMani: Modelo de mundo 3D baseado em princípios físicos para manipulação de objetos dinâmicos

Pesquisadores propõem o PhysMani, um framework que acopla um modelo de mundo Gaussiano 3D baseado em princípios físicos com um modelo de política de ações consciente do futuro para abordar desafios na manipulação de alvos em movimento rápido em ambientes 3D não estruturados.

O modelo de mundo aprende um campo de velocidade gaussiano sem divergência por meio de otimização online para previsão de dinâmica futura baseada em física.
O modelo de política integra a dinâmica futura da cena 3D prevista através de um módulo de atenção cruzada baseado em tokens e aprendível.
Os autores introduzem o PhysMani-Bench, um benchmark de manipulação dinâmica composto por 16 tarefas.
O PhysMani demonstra uma taxa de sucesso superior em comparação com baselines fortes tanto em simulações quanto em experimentos com robôs do mundo real.

Esta abordagem fornece geometria 3D precisa e previsões fisicamente significativas para sistemas de IA encarnada.