G$^3$VLA: Sesgo inductivo geométrico para Modelos Visión-Lenguaje-Acción
Los autores proponen G$^3$VLA, un módulo geométrico consciente de la cámara que inyecta estructura calibrada en el flujo de tokens visuales de modelos preentrenados de Visión-Lenguaje-Acción sin alterar su espacio de acción u objetivo de imitación. Este enfoque combina incrustaciones de rayos condicionadas intrínsecamente, codificación posicional proyectiva y fusión cruzada bidireccional entre vistas para abordar la discrepancia entre las coordenadas de imagen 2D y la geometría de la cámara del robot.