StochasT mejora el ajuste de instrucciones visuales con profundidad de giro estocástica

Los investigadores proponen StochasT, un método para abordar la discrepancia entre el entrenamiento multi-turno y la evaluación de turno único en Modelos Visión-Lenguaje Grandes (LVLMs). El enfoque agrupa aleatoriamente tareas de lenguaje para la misma imagen en clústeres de tamaños variables mientras preserva su orden orgánico.

StochasT evita descartar datos mediante agrupación estocástica similar a Dropout y stochastic depth.
Un mecanismo de evaluación agnóstico al benchmark basado en el Cuadrado Latino Balanceado mide la robustez bajo dependencias contextuales variables.
Los experimentos muestran que el método otorga a los LVLMs fuertes capacidades tanto para casos de uso de turno único como multi-turno.

Este enfoque ayuda a cerrar la brecha entre las condiciones de entrenamiento y los escenarios de prueba, permitiendo que los modelos realicen su pleno potencial a pesar del decaimiento de la atención visual y el sobreajuste contextual.