Le projet TUDUM présente un pipeline pour adapter le modèle Qwen3.5-27B afin d'effectuer un raisonnement explicite en turc, plutôt que de simplement traduire les invites ou les réponses.

  • Le pipeline applique un affinage supervisé sur 15 991 exemples de raisonnement turc à l'aide d'adaptateurs LoRA.
  • Il utilise ensuite le renforcement de la famille GRPO dans un environnement mathématique turc filtré par proxy.
  • Le SFT a réduit la longueur moyenne de la réponse et l'épuisement de la réflexion, mais a abaissé la précision du benchmark.
  • Le RL a récupéré certaines performances mathématiques, en particulier sur AIME24, mais n'a pas dépassé la moyenne Macro-6 du modèle de base.

Le modèle step-50 publié est disponible publiquement en tant qu'évaluation techniquement honnête du raisonnement de pensée turque.