L'entraînement d'une seule couche de transformateur récupère la plupart des gains du RL à paramètres complets

Une étude systématique remet en question l'hypothèse selon laquelle toutes les couches contribuent également au post-entraînement par apprentissage par renforcement (RL) dans les grands modèles de langage. Les auteurs constatent que l'entraînement d'une seule couche de transformateur peut récupérer la plupart des gains obtenus par le RL à paramètres complets, et parfois même les dépasser.

Les chercheurs introduisent la "contribution de la couche" pour mesurer la fraction de l'amélioration du RL complète récupérée en entraînant une couche isolément.
Sur sept modèles des familles Qwen3 et Qwen2.5, utilisant les algorithmes GRPO, GiGPO et Dr. GRPO, les gains étaient fortement concentrés dans un petit sous-ensemble ou une seule couche.
Les couches à haute contribution se concentrent systématiquement au milieu de la pile de transformateurs, tandis que les couches d'entrée et de sortie contribuent beaucoup moins.
Le classement des couches est resté fortement corrélé entre les ensembles de données, les tâches, les familles de modèles et les algorithmes RL.

Cette découverte suggère que l'adaptation par RL n'est pas uniformément distribuée, mais plutôt hautement localisée dans des régions structurelles spécifiques du modèle.