ViGiL3D++ представляет масштабируемый, сцен-независимый метод, генерирующий разнообразные визуальные запросы заземления путем комбинирования выбора ограничений в сцен-графах с генерацией языка на основе больших языковых моделей. Модель превосходит существующие модели на нескольких бенчмарках 3D визуального заземления и выявляет ключевые ограничения современных визуально-языковых моделей.