OneCanvas permite la comprensión de escenas 3D en Modelos Visión-Lenguaje agregando características de parches sobre un único lienzo panorámico utilizando coordenadas del mundo 3D. Alcanza rendimiento de vanguardia en SQA3D y VSI-Bench, y se generaliza a datos fuera de distribución en SPBench, utilizando significativamente menos capacidad de entrenamiento que los métodos existentes.
OneCanvas: Comprensión de escenas 3D mediante reproyección panorámica
Traducido del English → Español