StochasT améliore le réglage d'instructions visuelles par la profondeur de tour stochastique

Les chercheurs proposent StochasT, une méthode pour combler l'écart entre l'entraînement multi-tours et l'évaluation en un seul tour dans les Modèles Visuels-Langagiers (LVLMs). L'approche regroupe de manière stochastique les tâches linguistiques pour la même image en clusters de tailles variées tout en préservant leur ordre organique.

StochasT évite de perdre des données en utilisant un regroupement stochastique similaire à Dropout et à la profondeur stochastique.
Un mécanisme d'évaluation agnostique au benchmark basé sur le Carré Latin Équilibré mesure la robustesse sous des dépendances contextuelles variables.
Les expériences montrent que la méthode confère aux LVLMs de fortes capacités pour les cas d'utilisation en un seul tour et multi-tours.

Cette approche aide à combler l'écart entre les conditions d'entraînement et les scénarios de test, permettant aux modèles de réaliser leur plein potentiel malgré la décroissance de l'attention visuelle et le surapprentissage contextuel.