Débiaisage sélectif au moment du test pour CLIP via le verrouillage de récompense

Les chercheurs introduisent Reward-Gated Test-Time Adaptation (RG-TTA), un cadre basé sur l'apprentissage par renforcement qui applique sélectivement le débiaisage aux Vision Language Models en fonction de la sensibilité au biais des entrées. Cette approche résout le compromis équité-utilité inhérent aux méthodes de correction uniformes en adaptant la régularisation uniquement pour les requêtes sensibles au biais.

RG-TTA déclenche de manière adaptative la régularisation de l'équité pendant l'adaptation de la politique au moment du test en fonction de la sensibilité au biais de chaque entrée.
Le cadre se concentre exclusivement sur l'optimisation de l'alignement inter-modal pour les entrées non sensibles au biais afin de préserver l'information sémantique.
Les expériences sur les benchmarks FairFace et UTKFace démontrent une réduction substantielle du biais tout en améliorant simultanément l'utilité zero-shot.