Pelatihan lapisan transformer tunggal memulihkan sebagian besar keuntungan RL parameter penuh

Sebuah studi sistematis menantang asumsi bahwa semua lapisan berkontribusi secara setara pada pelatihan pasca-pembelajaran penguatan (RL) dalam model bahasa besar. Penulis menemukan bahwa melatih satu lapisan transformer dapat memulihkan sebagian besar keuntungan yang dicapai oleh RL parameter penuh, dan kadang-kadang bahkan melampauinya.

Para peneliti memperkenalkan "kontribusi lapisan" untuk mengukur fraksi perbaikan RL penuh yang dipulihkan dengan melatih lapisan secara terisolasi.
Di seluruh tujuh model dari keluarga Qwen3 dan Qwen2.5, menggunakan algoritma GRPO, GiGPO, dan Dr. GRPO, keuntungan sangat terkonsentrasi pada subset kecil atau lapisan tunggal.
Lapisan berkontribusi tinggi secara konsisten terkonsentrasi di tengah tumpukan transformer, sementara lapisan input dan output berkontribusi jauh lebih sedikit.
Peringkat lapisan tetap berkorelasi kuat antar dataset, tugas, keluarga model, dan algoritma RL.

Temuan ini menunjukkan bahwa adaptasi RL tidak terdistribusi secara merata, melainkan sangat terlokalisasi di dalam wilayah struktural tertentu dari model.