O projeto TUDUM apresenta um pipeline para adaptar o modelo Qwen3.5-27B a realizar raciocínio explícito em turco, em vez de apenas traduzir prompts ou respostas.
- O pipeline aplica ajuste fino supervisionado (SFT) em 15.991 exemplos de raciocínio em turco usando adaptadores LoRA.
- Em seguida, utiliza aprendizado por reforço da família GRPO em um ambiente de matemática turca filtrado por proxy.
- SFT reduziu o comprimento médio da resposta e o esgotamento do pensamento, mas diminuiu a precisão nos benchmarks.
- RL recuperou parte do desempenho matemático, particularmente no AIME24, mas não superou a média Macro-6 do modelo base.
O modelo step-50 liberado está disponível publicamente como uma avaliação tecnicamente honesta do raciocínio em turco.