O projeto TUDUM apresenta um pipeline para adaptar o modelo Qwen3.5-27B a realizar raciocínio explícito em turco, em vez de apenas traduzir prompts ou respostas.

  • O pipeline aplica ajuste fino supervisionado (SFT) em 15.991 exemplos de raciocínio em turco usando adaptadores LoRA.
  • Em seguida, utiliza aprendizado por reforço da família GRPO em um ambiente de matemática turca filtrado por proxy.
  • SFT reduziu o comprimento médio da resposta e o esgotamento do pensamento, mas diminuiu a precisão nos benchmarks.
  • RL recuperou parte do desempenho matemático, particularmente no AIME24, mas não superou a média Macro-6 do modelo base.

O modelo step-50 liberado está disponível publicamente como uma avaliação tecnicamente honesta do raciocínio em turco.