ViGOS introduce un marco de auto-distilación de política activa con fundamentos visuales para modelos de lenguaje grande multimodales. Desacopla la percepción y el razonamiento utilizando un maestro solo de imagen para descripciones visuales y un maestro de razonamiento para las salidas finales, reduciendo la dependencia de referencias solo de texto. Este enfoque mejora el rendimiento basado en imágenes en múltiples benchmarks de visión-lenguaje.
ViGOS: Desacoplar la percepción y el razonamiento en la auto-distilación multimodal de política activa
Traducido del English → Español