Los investigadores proponen StochasT, un método para abordar la discrepancia entre el entrenamiento multi-turno y la evaluación de turno único en Modelos Visión-Lenguaje Grandes (LVLMs). El enfoque agrupa aleatoriamente tareas de lenguaje para la misma imagen en clústeres de tamaños variables mientras preserva su orden orgánico.
- StochasT evita descartar datos mediante agrupación estocástica similar a Dropout y stochastic depth.
- Un mecanismo de evaluación agnóstico al benchmark basado en el Cuadrado Latino Balanceado mide la robustez bajo dependencias contextuales variables.
- Los experimentos muestran que el método otorga a los LVLMs fuertes capacidades tanto para casos de uso de turno único como multi-turno.
Este enfoque ayuda a cerrar la brecha entre las condiciones de entrenamiento y los escenarios de prueba, permitiendo que los modelos realicen su pleno potencial a pesar del decaimiento de la atención visual y el sobreajuste contextual.