PCS memungkinkan transfer penalaran multibahasa yang efisien melalui code-switching bertahap

Para peneliti mengusulkan Progressive Code-Switching (PCS), sebuah kerangka kerja yang mentransfer kemampuan bahasa Inggris dari Large Reasoning Models ke bahasa lain tanpa bergantung pada distilasi mahal dari model yang lebih kuat atau hakim eksternal. PCS membangun jejak penalaran code-switched dengan menerjemahkan sebagian langkah bahasa Inggris ke dalam bahasa target dan menggunakan supervised fine-tuning untuk menginisialisasi kemampuan ini.

Metode ini menerapkan reinforcement learning dengan kurikulum konsistensi bahasa tingkat langkah, secara bertahap meningkatkan rasio bahasa target hingga model menalar sepenuhnya dalam bahasa tersebut.

Eksperimen pada berbagai benchmark dan lima bahasa yang beragam secara tipologis menunjukkan bahwa PCS secara substansial menyempitkan kesenjangan kinerja antara penalaran bahasa target dan bahasa Inggris sambil mempertahankan akurasi yang kompetitif.