Les chercheurs proposent StochasT, une méthode pour combler l'écart entre l'entraînement multi-tours et l'évaluation en un seul tour dans les Modèles Visuels-Langagiers (LVLMs). L'approche regroupe de manière stochastique les tâches linguistiques pour la même image en clusters de tailles variées tout en préservant leur ordre organique.

  • StochasT évite de perdre des données en utilisant un regroupement stochastique similaire à Dropout et à la profondeur stochastique.
  • Un mécanisme d'évaluation agnostique au benchmark basé sur le Carré Latin Équilibré mesure la robustesse sous des dépendances contextuelles variables.
  • Les expériences montrent que la méthode confère aux LVLMs de fortes capacités pour les cas d'utilisation en un seul tour et multi-tours.

Cette approche aide à combler l'écart entre les conditions d'entraînement et les scénarios de test, permettant aux modèles de réaliser leur plein potentiel malgré la décroissance de l'attention visuelle et le surapprentissage contextuel.