Le projet TUDUM présente un pipeline pour adapter le modèle Qwen3.5-27B afin d'effectuer un raisonnement explicite en turc, plutôt que de simplement traduire les invites ou les réponses.
- Le pipeline applique un affinage supervisé sur 15 991 exemples de raisonnement turc à l'aide d'adaptateurs LoRA.
- Il utilise ensuite le renforcement de la famille GRPO dans un environnement mathématique turc filtré par proxy.
- Le SFT a réduit la longueur moyenne de la réponse et l'épuisement de la réflexion, mais a abaissé la précision du benchmark.
- Le RL a récupéré certaines performances mathématiques, en particulier sur AIME24, mais n'a pas dépassé la moyenne Macro-6 du modèle de base.
Le modèle step-50 publié est disponible publiquement en tant qu'évaluation techniquement honnête du raisonnement de pensée turque.