Los investigadores proponen StochasT, un método para abordar la discrepancia entre el entrenamiento multi-turno y la evaluación de turno único en Modelos Visión-Lenguaje Grandes (LVLMs). El enfoque agrupa aleatoriamente tareas de lenguaje para la misma imagen en clústeres de tamaños variables mientras preserva su orden orgánico.

  • StochasT evita descartar datos mediante agrupación estocástica similar a Dropout y stochastic depth.
  • Un mecanismo de evaluación agnóstico al benchmark basado en el Cuadrado Latino Balanceado mide la robustez bajo dependencias contextuales variables.
  • Los experimentos muestran que el método otorga a los LVLMs fuertes capacidades tanto para casos de uso de turno único como multi-turno.

Este enfoque ayuda a cerrar la brecha entre las condiciones de entrenamiento y los escenarios de prueba, permitiendo que los modelos realicen su pleno potencial a pesar del decaimiento de la atención visual y el sobreajuste contextual.