TUDUM adapte Qwen3.5-27B au raisonnement turc via SFT et RL

Le projet TUDUM présente un pipeline pour adapter le modèle Qwen3.5-27B afin d'effectuer un raisonnement explicite en turc, plutôt que de simplement traduire les invites ou les réponses.

Le pipeline applique un affinage supervisé sur 15 991 exemples de raisonnement turc à l'aide d'adaptateurs LoRA.
Il utilise ensuite le renforcement de la famille GRPO dans un environnement mathématique turc filtré par proxy.
Le SFT a réduit la longueur moyenne de la réponse et l'épuisement de la réflexion, mais a abaissé la précision du benchmark.
Le RL a récupéré certaines performances mathématiques, en particulier sur AIME24, mais n'a pas dépassé la moyenne Macro-6 du modèle de base.

Le modèle step-50 publié est disponible publiquement en tant qu'évaluation techniquement honnête du raisonnement de pensée turque.