TUDUM adapta Qwen3.5-27B para raciocínio em turco via SFT e RL

O projeto TUDUM apresenta um pipeline para adaptar o modelo Qwen3.5-27B a realizar raciocínio explícito em turco, em vez de apenas traduzir prompts ou respostas.

O pipeline aplica ajuste fino supervisionado (SFT) em 15.991 exemplos de raciocínio em turco usando adaptadores LoRA.
Em seguida, utiliza aprendizado por reforço da família GRPO em um ambiente de matemática turca filtrado por proxy.
SFT reduziu o comprimento médio da resposta e o esgotamento do pensamento, mas diminuiu a precisão nos benchmarks.
RL recuperou parte do desempenho matemático, particularmente no AIME24, mas não superou a média Macro-6 do modelo base.

O modelo step-50 liberado está disponível publicamente como uma avaliação tecnicamente honesta do raciocínio em turco.