G$^3$VLA: Геометрический индуктивный предубеждение для моделей Vision-Language-Action

Авторы предлагают G$^3$VLA, модуль геометрической осведомленности о камере, который внедряет калиброванную структуру в поток визуальных токенов предварительно обученных моделей Vision-Language-Action, не изменяя их пространство действий или цель имитации. Этот подход сочетает внутренние условия с лучевыми эмбеддингами, проективным позиционным кодированием и двунаправленной кросс-видовой фьюзией для устранения несоответствия между 2D координатами изображения и геометрией камеры робота.

G$^3$VLA предоставляет геометрический надзор через карты точек ground-truth или предсказания учителя $π^3$X с контролем уверенности, не требуя датчиков глубины или ручной аннотации.
Инстанцированный на $π_0$, модель дает последовательные улучшения в наборах LIBERO, RoboCasa24, RoboTwin2.0 и реальных роботах.
Наибольшие улучшения наблюдаются в задачах, чувствительных к пространству и объектам.
Валидация на $π_{0.5}$ и GR00T 1.5 показывает, что геометрическая передача наиболее эффективна, когда токены с геометрической осведомленностью имеют прямой доступ к пути генерации действий.

Авторы считают это важным, поскольку это позволяет предварительно обученным VLAs использовать калиброванную геометрию камеры, решая ключевое ограничение в многокамерных настройках, где виды связаны известными внутренними и внешними параметрами.