StochasT melhora o ajuste de instruções visuais com profundidade de turno estocástica

Pesquisadores propõem o StochasT, um método para abordar a discrepância entre treinamento multi-turno e avaliação de turno único em Grandes Modelos Visão-Linguagem (LVLMs). A abordagem agrupa aleatoriamente tarefas de linguagem para a mesma imagem em clusters de tamanhos variados, preservando sua ordem orgânica.

O StochasT evita descartar dados usando agrupamento estocástico semelhante ao Dropout e stochastic depth.
Um mecanismo de avaliação agnóstico ao benchmark baseado no Quadrado Latino Balanceado mede a robustez sob dependências contextuais variáveis.
Experimentos mostram que o método concede aos LVLMs fortes capacidades tanto para casos de uso de turno único quanto multi-turno.

Essa abordagem ajuda a fechar a lacuna entre as condições de treinamento e os cenários de teste, permitindo que os modelos realizem seu pleno potencial apesar do decaimento da atenção visual e do overfitting contextual.