PCS通过渐进式代码切换实现高效的多语言推理迁移

研究人员提出了渐进式代码切换（PCS），这是一种框架，能够将大型推理模型（Large Reasoning Models）的英语能力迁移到其他语言，而无需依赖来自更强模型或外部评判者的昂贵蒸馏。PCS通过将部分英语步骤翻译为目标语言来构建代码切换推理轨迹，并使用监督微调来初始化这种能力。

该方法应用了带有逐步语言一致性课程的学习强化学习，逐渐增加目标语言的比例，直到模型完全使用该语言进行推理。

在多个基准测试和五种类型学上多样化的语言上的实验表明，PCS显著缩小了目标语言与英语推理之间的性能差距，同时保持了具有竞争力的准确性。