Los investigadores proponen Progressive Code-Switching (PCS), un marco que transfiere las capacidades de inglés de los Large Reasoning Models a otros idiomas sin depender de una destilación costosa de modelos más fuertes o jueces externos. PCS construye trazas de razonamiento con cambio de código traduciendo un subconjunto de pasos en inglés al idioma objetivo y utiliza ajuste fino supervisado para inicializar esta capacidad.
El método aplica aprendizaje por refuerzo con un currículo de consistencia de lenguaje a nivel de paso, aumentando progresivamente la proporción del idioma objetivo hasta que el modelo razona completamente en ese idioma.
Los experimentos en múltiples benchmarks y cinco idiomas tipológicamente diversos muestran que PCS reduce sustancialmente la brecha de rendimiento entre el razonamiento en el idioma objetivo y el inglés, manteniendo una precisión competitiva.