ViRGo introduce un marco ligero que adapta la recuperación visual según la escala del objeto. Utiliza localización intrínseca y confianza semántica para enrutar entre percepción global, recuperación basada en parches y recuperación basada en atención, mejorando los compromisos entre precisión y eficiencia sin computación adicional.