Un estudio sistemático desafía la suposición de que todas las capas contribuyen por igual al aprendizaje por refuerzo (RL) post-entrenamiento en modelos de lenguaje grandes. Los autores encuentran que entrenar una sola capa de transformador puede recuperar la mayor parte de las ganancias logradas por RL con parámetros completos, y a veces superarlo.

  • Los investigadores introducen "contribución de capa" para medir la fracción de mejora total de RL recuperada al entrenar una capa de forma aislada.
  • En siete modelos de las familias Qwen3 y Qwen2.5, utilizando los algoritmos GRPO, GiGPO y Dr. GRPO, las ganancias estuvieron altamente concentradas en un pequeño subconjunto o capas individuales.
  • Las capas de alta contribución se concentran consistentemente en el medio de la pila del transformador, mientras que las capas de entrada y salida contribuyen sustancialmente menos.
  • Los rangos de las capas permanecieron fuertemente correlacionados entre conjuntos de datos, tareas, familias de modelos y algoritmos de RL.

Este hallazgo sugiere que la adaptación por RL no está distribuida uniformemente, sino que está altamente localizada dentro de regiones estructurales específicas del modelo.