G$^3$VLA: Sesgo inductivo geométrico para Modelos Visión-Lenguaje-Acción

Los autores proponen G$^3$VLA, un módulo geométrico consciente de la cámara que inyecta estructura calibrada en el flujo de tokens visuales de modelos preentrenados de Visión-Lenguaje-Acción sin alterar su espacio de acción u objetivo de imitación. Este enfoque combina incrustaciones de rayos condicionadas intrínsecamente, codificación posicional proyectiva y fusión cruzada bidireccional entre vistas para abordar la discrepancia entre las coordenadas de imagen 2D y la geometría de la cámara del robot.

G$^3$VLA proporciona supervisión geométrica a través de mapas de puntos de referencia verdadera o predicciones del maestro $π^3$X con puerta de confianza, sin requerir sensores de profundidad ni anotaciones manuales.
Instanciado en $π_0$, el modelo produce ganancias consistentes en las suites LIBERO, RoboCasa24, RoboTwin2.0 y entornos de robot real.
Las mayores mejoras se observan en tareas sensibles a la espacialidad y los objetos.
La validación en $π_{0.5}$ y GR00T 1.5 sugiere que la transferencia geométrica es más efectiva cuando los tokens conscientes de la geometría tienen acceso directo a la vía de generación de acciones.

Los autores consideran esto importante porque permite que los VLAs preentrenados aprovechen la geometría calibrada de la cámara, abordando una limitación clave en configuraciones multicanal donde las vistas están acopladas por intrínsecas y extrínsecas conocidas.