Los autores presentan OVBEVSeg, un marco para la segmentación en vista de pájaro (BEV) de vocabulario abierto que utiliza modelos de visión-lenguaje para reconocer categorías más allá del conjunto de entrenamiento mientras mantiene una eficiencia en tiempo real. Para abordar la inconsistencia geométrica 3D inherente al elevar semánticas 2D a BEV, el método emplea restricciones geométricas 3D robustas a través de tres etapas progresivas.
- OVBEVSeg mejora la unproyección eficiente basada en Gaussian splatting mediante una proyección 3D confiable para la generalización de vocabulario abierto.
- Realiza una optimización por escena conjunta 2D-BEV con restricciones estructurales para garantizar la consistencia geométrica 3D.
- El marco aplica destilación geométrica 3D para lograr eficiencia en línea.
- En el conjunto de datos nuScenes, supera a los métodos de conjunto cerrado en 15.3 mIoU en categorías no vistas sin etiquetas de verdad fundamental de clases nuevas.
- Logra una inferencia 2.5x más rápida con solo 0.22x el consumo de memoria de los métodos basados en proyección.
Este enfoque permite una percepción BEV precisa en entornos del mundo real impredecibles al aprovechar modelos de visión-lenguaje, manteniéndose competitivo frente a las líneas base supervisadas mientras reduce significativamente los costos computacionales.