Авторы представляют OVBEVSeg, фреймворк для сегментации вида сверху (BEV) с открытым словарем, который использует модели «зрение-язык» для распознавания категорий за пределами обучающего набора, сохраняя при этом эффективность в реальном времени. Чтобы устранить 3D-геометрическую несогласованность, присущую подъему 2D-семантики в BEV, метод применяет надежные 3D-геометрические ограничения на трех прогрессивных этапах.
- OVBEVSeg улучшает эффективную непроецируемую проекцию на основе гауссова сплаттинга за счет надежной 3D-проекции для обобщения с открытым словарем.
- Он выполняет совместную оптимизацию 2D-BEV для каждой сцены со структурными ограничениями, чтобы обеспечить 3D-геометрическую согласованность.
- Фреймворк применяет 3D-геометрическое дистилляцию для достижения онлайн-эффективности.
- На наборе данных nuScenes он превосходит методы с закрытым словарем на 15.3 mIoU на невидимых категориях без меток ground-truth новых классов.
- Он обеспечивает ускорение вывода в 2.5 раза при потреблении памяти всего в 0.22x от проекционных методов.
Этот подход позволяет осуществлять точное восприятие BEV в непредсказуемых реальных средах, используя модели «зрение-язык», оставаясь конкурентоспособным по сравнению с обученными базовыми моделями и значительно снижая вычислительные затраты.