El proyecto TUDUM presenta una tubería para adaptar el modelo Qwen3.5-27B a realizar razonamiento explícito en turco, en lugar de simplemente traducir prompts o respuestas.

  • La tubería aplica ajuste fino supervisado (SFT) en 15.991 ejemplos de razonamiento en turco utilizando adaptadores LoRA.
  • Luego utiliza aprendizaje por refuerzo de la familia GRPO en un entorno de matemáticas turcas filtrado por proxy.
  • SFT redujo la longitud promedio de la respuesta y el agotamiento del pensamiento, pero disminuyó la precisión en los benchmarks.
  • RL recuperó parte del rendimiento matemático, particularmente en AIME24, pero no superó el promedio Macro-6 del modelo base.

El modelo paso-50 liberado está disponible públicamente como una evaluación técnicamente honesta del razonamiento en turco.