G$^3$VLA: Геометрический индуктивный предубеждение для моделей Vision-Language-Action
Авторы предлагают G$^3$VLA, модуль геометрической осведомленности о камере, который внедряет калиброванную структуру в поток визуальных токенов предварительно обученных моделей Vision-Language-Action, не изменяя их пространство действий или цель имитации. Этот подход сочетает внутренние условия с лучевыми эмбеддингами, проективным позиционным кодированием и двунаправленной кросс-видовой фьюзией для устранения несоответствия между 2D координатами изображения и геометрией камеры робота.