ViGiL3D++ permite la generación diversa de lenguaje para la localización visual 3D

ViGiL3D++ introduce un método escalable e independiente de la escena que genera consultas diversas de localización visual combinando el muestreo de restricciones en grafos de escena con la generación de lenguaje de modelos de lenguaje grandes. Supera a los modelos existentes en múltiples benchmarks de localización visual 3D y revela limitaciones clave de los modelos actuales de visión-lenguaje.