연구자들은 강력한 모델이나 외부 심사자로부터의 고비용 증류에 의존하지 않고 대규모 추론 모델의 영어 능력을 다른 언어로 이전하는 프레임워크인 Progressive Code-Switching (PCS)를 제안했습니다. PCS는 영어 단계의 일부를 대상 언어로 번역하여 코드 전환된 추론 트레이스를 구성하고, 이 능력을 초기화하기 위해 지도 미세 조정(supervised fine-tuning)을 사용합니다.

이 방법은 단계별 언어 일관성 커리큘럼과 함께 강화 학습을 적용하여 모델이 완전히 해당 언어로 추론할 때까지 대상 언어 비율을 점진적으로 증가시킵니다.

여러 벤치마크와 유형학적으로 다양한 5개 언어에 대한 실험 결과, PCS가 대상 언어와 영어 간 추론 성능 격차를 크게 줄이면서 경쟁력 있는 정확도를 유지하는 것으로 나타났습니다.