研究人员提出了渐进式代码切换(PCS),这是一种框架,能够将大型推理模型(Large Reasoning Models)的英语能力迁移到其他语言,而无需依赖来自更强模型或外部评判者的昂贵蒸馏。PCS通过将部分英语步骤翻译为目标语言来构建代码切换推理轨迹,并使用监督微调来初始化这种能力。

该方法应用了带有逐步语言一致性课程的学习强化学习,逐渐增加目标语言的比例,直到模型完全使用该语言进行推理。

在多个基准测试和五种类型学上多样化的语言上的实验表明,PCS显著缩小了目标语言与英语推理之间的性能差距,同时保持了具有竞争力的准确性。