TUDUM परियोजना एक पाइपलाइन प्रस्तुत करती है जो Qwen3.5-27B मॉडल को केवल प्रॉम्प्ट या उत्तरों का अनुवाद करने के बजाय तुर्की में स्पष्ट तर्क करने के लिए अनुकूलित करती है।

  • पाइपलाइन LoRA एडाप्टर्स का उपयोग करके 15,991 तुर्की तर्क उदाहरणों पर सूपरवाइज्ड फाइन-ट्यूनिंग (SFT) लागू करती है।
  • यह फिर प्रॉक्सी-फ़िल्टर्ड तुर्की गणित वातावरण में GRPO-फैमिली रीइन्फोर्समेंट लर्निंग का उपयोग करता है।
  • SFT ने औसत प्रतिक्रिया लंबाई और सोच की थकान को कम किया, लेकिन बेंचमार्क सटीकता को कम कर दिया।
  • RL ने कुछ गणितीय प्रदर्शन को पुनर्प्राप्त किया, विशेष रूप से AIME24 पर, लेकिन बेस मॉडल के Macro-6 औसत से अधिक नहीं हुआ।

रिलीज़ किए गए step-50 मॉडल को तुर्की तर्क का एक तकनीकी रूप से ईमानदार मूल्यांकन के रूप में सार्वजनिक रूप से उपलब्ध कराया गया है।