Les chercheurs proposent le Progressive Code-Switching (PCS), un cadre qui transfère les capacités de raisonnement en anglais des grands modèles sans dépendre d'une distillation coûteuse depuis des modèles plus puissants ou des juges externes. PCS construit des traces de raisonnement en code-switching en traduisant un sous-ensemble des étapes anglaises vers la langue cible et utilise un ajustement fin supervisé pour initialiser cette capacité.
La méthode applique l'apprentissage par renforcement avec un curriculum de cohérence linguistique au niveau des étapes, augmentant progressivement le ratio de la langue cible jusqu'à ce que le modèle raisonne entièrement dans cette langue.
Les expériences sur plusieurs benchmarks et cinq langues typologiquement diverses montrent que PCS réduit substantiellement l'écart de performance entre le raisonnement en langue cible et en anglais tout en maintenant une précision compétitive.