Les chercheurs introduisent Reward-Gated Test-Time Adaptation (RG-TTA), un cadre basé sur l'apprentissage par renforcement qui applique sélectivement le débiaisage aux Vision Language Models en fonction de la sensibilité au biais des entrées. Cette approche résout le compromis équité-utilité inhérent aux méthodes de correction uniformes en adaptant la régularisation uniquement pour les requêtes sensibles au biais.
- RG-TTA déclenche de manière adaptative la régularisation de l'équité pendant l'adaptation de la politique au moment du test en fonction de la sensibilité au biais de chaque entrée.
- Le cadre se concentre exclusivement sur l'optimisation de l'alignement inter-modal pour les entrées non sensibles au biais afin de préserver l'information sémantique.
- Les expériences sur les benchmarks FairFace et UTKFace démontrent une réduction substantielle du biais tout en améliorant simultanément l'utilité zero-shot.