El entrenamiento de una sola capa de transformador recupera la mayor parte de las ganancias de RL con parámetros completos

Un estudio sistemático desafía la suposición de que todas las capas contribuyen por igual al aprendizaje por refuerzo (RL) post-entrenamiento en modelos de lenguaje grandes. Los autores encuentran que entrenar una sola capa de transformador puede recuperar la mayor parte de las ganancias logradas por RL con parámetros completos, y a veces superarlo.

Los investigadores introducen "contribución de capa" para medir la fracción de mejora total de RL recuperada al entrenar una capa de forma aislada.
En siete modelos de las familias Qwen3 y Qwen2.5, utilizando los algoritmos GRPO, GiGPO y Dr. GRPO, las ganancias estuvieron altamente concentradas en un pequeño subconjunto o capas individuales.
Las capas de alta contribución se concentran consistentemente en el medio de la pila del transformador, mientras que las capas de entrada y salida contribuyen sustancialmente menos.
Los rangos de las capas permanecieron fuertemente correlacionados entre conjuntos de datos, tareas, familias de modelos y algoritmos de RL.

Este hallazgo sugiere que la adaptación por RL no está distribuida uniformemente, sino que está altamente localizada dentro de regiones estructurales específicas del modelo.