arxiv arXiv cs.LG · hace 1 h · fuente: hace 11 d · research

ViGOS: Desacoplar la percepción y el razonamiento en la auto-distilación multimodal de política activa

Traducido del English → Español

ViGOS introduce un marco de auto-distilación de política activa con fundamentos visuales para modelos de lenguaje grande multimodales. Desacopla la percepción y el razonamiento utilizando un maestro solo de imagen para descripciones visuales y un maestro de razonamiento para las salidas finales, reduciendo la dependencia de referencias solo de texto. Este enfoque mejora el rendimiento basado en imágenes en múltiples benchmarks de visión-lenguaje.

Importancia 3/3 Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.LG Mistral AI Google DeepMind OpenAI AI agents Multimodal Reasoning models

Leer original