TUDUM adapta Qwen3.5-27B para el razonamiento en turco mediante SFT y RL

El proyecto TUDUM presenta una tubería para adaptar el modelo Qwen3.5-27B a realizar razonamiento explícito en turco, en lugar de simplemente traducir prompts o respuestas.

La tubería aplica ajuste fino supervisado (SFT) en 15.991 ejemplos de razonamiento en turco utilizando adaptadores LoRA.
Luego utiliza aprendizaje por refuerzo de la familia GRPO en un entorno de matemáticas turcas filtrado por proxy.
SFT redujo la longitud promedio de la respuesta y el agotamiento del pensamiento, pero disminuyó la precisión en los benchmarks.
RL recuperó parte del rendimiento matemático, particularmente en AIME24, pero no superó el promedio Macro-6 del modelo base.

El modelo paso-50 liberado está disponible públicamente como una evaluación técnicamente honesta del razonamiento en turco.