大規模言語モデルにおける強化学習(RL)ポストトレーニングにおいて、すべての層が同等に寄与するという仮定に疑問を投げかける体系的な研究。著者らは、単一のトランスフォーマー層を学習させることで、フルパラメータRLによって達成された利点の大部分を再現できること、場合によってはそれを上回ることを発見した。

  • 研究者は、「層の寄与度」を導入し、孤立して層を学習させることでフルRLの改善がどの程度再現されるかを測定する。
  • Qwen3およびQwen2.5ファミリからの7つのモデルにおいて、GRPO、GiGPO、Dr. GRPOアルゴリズムを使用した場合、利点は小さなサブセットまたは単一の層に高度に集中していた。
  • 高寄与層はトランスフォーマースタックの中央に一貫して集中しており、入力層と出力層は大幅に少ない寄与しかしていない。
  • 層のランキングは、データセット、タスク、モデルファミリ、RLアルゴリズム間で強く相関していた。

この発見は、RL適応が均一に分布しているのではなく、モデル内の特定の構造的領域に高度に局在化していることを示唆している。