Um estudo sistemático desafia a suposição de que todas as camadas contribuem igualmente para o aprendizado por reforço (RL) pós-treinamento em grandes modelos de linguagem. Os autores descobrem que treinar uma única camada de transformador pode recuperar a maior parte dos ganhos alcançados pelo RL com parâmetros completos, e às vezes superá-lo.

  • Os pesquisadores introduzem "contribuição da camada" para medir a fração da melhoria total do RL recuperada ao treinar uma camada isoladamente.
  • Em sete modelos das famílias Qwen3 e Qwen2.5, usando os algoritmos GRPO, GiGPO e Dr. GRPO, os ganhos foram altamente concentrados em um pequeno subconjunto ou camadas individuais.
  • As camadas de alta contribuição concentram-se consistentemente no meio da pilha do transformador, enquanto as camadas de entrada e saída contribuem substancialmente menos.
  • As classificações das camadas permaneceram fortemente correlacionadas entre conjuntos de dados, tarefas, famílias de modelos e algoritmos de RL.

Essa descoberta sugere que a adaptação por RL não é distribuída uniformemente, mas sim altamente localizada dentro de regiões estruturais específicas do modelo.