연구자들은 PhysMani를 제안합니다. 이는 구조화되지 않은 3D 환경에서 빠르게 움직이는 대상의 조작 과제를 해결하기 위해 물리 법칙 기반 3D 가우시안 월드 모델과 미래 인식 액션 정책 모델을 결합한 프레임워크입니다.
- 월드 모델은 물리적으로 근거 있는 미래 역학 예측을 위해 온라인 최적화를 통해 발산 없는 가우시안 속도장을 학습합니다.
- 정책 모델은 학습 가능한 토큰 기반 크로스 어텐션 모듈을 통해 예측된 3D 장면의 미래 역학을 통합합니다.
- 저자들은 16개의 작업으로 구성된 동적 조작 벤치마크인 PhysMani-Bench를 도입했습니다.
- PhysMani는 시뮬레이션과 실제 로봇 실험 모두에서 강력한 베이스라인보다 우수한 성공률을 보여줍니다.
이 접근 방식은 구동형 AI 시스템에 정확한 3D 기하학과 물리적으로 의미 있는 예측을 제공합니다.