Pesquisadores propõem o StochasT, um método para abordar a discrepância entre treinamento multi-turno e avaliação de turno único em Grandes Modelos Visão-Linguagem (LVLMs). A abordagem agrupa aleatoriamente tarefas de linguagem para a mesma imagem em clusters de tamanhos variados, preservando sua ordem orgânica.
- O StochasT evita descartar dados usando agrupamento estocástico semelhante ao Dropout e stochastic depth.
- Um mecanismo de avaliação agnóstico ao benchmark baseado no Quadrado Latino Balanceado mede a robustez sob dependências contextuais variáveis.
- Experimentos mostram que o método concede aos LVLMs fortes capacidades tanto para casos de uso de turno único quanto multi-turno.
Essa abordagem ajuda a fechar a lacuna entre as condições de treinamento e os cenários de teste, permitindo que os modelos realizem seu pleno potencial apesar do decaimento da atenção visual e do overfitting contextual.