Segmentación BEV de vocabulario abierto con restricciones geométricas conscientes del 3D
Los autores presentan OVBEVSeg, un marco para la segmentación en vista de pájaro (BEV) de vocabulario abierto que utiliza modelos de visión-lenguaje para reconocer categorías más allá del conjunto de entrenamiento mientras mantiene una eficiencia en tiempo real. Para abordar la inconsistencia geométrica 3D inherente al elevar semánticas 2D a BEV, el método emplea restricciones geométricas 3D robustas a través de tres etapas progresivas.