研究者らは、Progressive Code-Switching (PCS) と呼ばれるフレームワークを提案しました。これは、強力なモデルや外部審査者からの高コストな蒸留に頼ることなく、大規模推論モデルの英語能力を他の言語へ転移させるものです。PCSは、英語のステップの一部を対象言語に翻訳することでコードスイッチングされた推論トレースを構築し、教師ありファインチューニングによってこの能力を初期化します。
この手法は、段階的に目標言語の比率を増加させ、モデルが完全にその言語で推論を行うまで、ステップレベルの言語一貫性カリキュラムを用いた強化学習を適用します。
複数のベンチマークと5つの類型学的に多様な言語での実験により、PCSが目標言語と英語の推論間の性能差を大幅に縮小しつつ、競争力のある精度を維持することが示されました。