Обучение одного трансформерного слоя восстанавливает большую часть прироста от RL с полным набором параметров

Систематическое исследование ставит под сомнение предположение о том, что все слои вносят равный вклад в обучение с подкреплением (RL) после дообучения больших языковых моделей. Авторы обнаруживают, что обучение одного трансформерного слоя может восстановить большую часть прироста, достигнутого при RL с полным набором параметров, а иногда и превзойти его.

Исследователи вводят понятие «вклад слоя» для измерения доли улучшения от полного RL, восстановленного обучением слоя изолированно.
На семи моделях семейств Qwen3 и Qwen2.5, использующих алгоритмы GRPO, GiGPO и Dr. GRPO, прирост был сильно сконцентрирован в небольшом подмножестве или отдельных слоях.
Слои с высоким вкладом стабильно сосредоточены в середине стека трансформеров, тогда как входные и выходные слои вносят значительно меньший вклад.
Рейтинги слоев оставались сильно коррелированными между наборами данных, задачами, семействами моделей и алгоритмами RL.

Этот вывод предполагает, что адаптация через RL не распределена равномерно, а локализована в определенных структурных областях модели.