Desvio seletivo no tempo de teste para CLIP via gating de recompensa

Pesquisadores introduzem a Adaptação no Tempo de Teste com Gating de Recompensa (RG-TTA), um framework baseado em aprendizado por reforço que aplica seletivamente a correção de viés a Vision Language Models com base na sensibilidade ao viés da entrada. Esta abordagem resolve o compromisso entre justiça e utilidade inerente aos métodos de correção uniforme, adaptando a regularização apenas para consultas sensíveis ao viés.

RG-TTA ativa adaptativamente a regularização de justiça durante a adaptação da política no tempo de teste com base na sensibilidade ao viés de cada entrada.
O framework foca exclusivamente em otimizar o alinhamento cross-modal para entradas insensíveis ao viés, preservando a informação semântica.
Experimentos nos benchmarks FairFace e UTKFace demonstram uma redução substancial do viés enquanto melhoram simultaneamente a utilidade zero-shot.