TUDUM SFT और RL के माध्यम से Qwen3.5-27B को तुर्की तर्क के लिए अनुकूलित करता है

TUDUM परियोजना एक पाइपलाइन प्रस्तुत करती है जो Qwen3.5-27B मॉडल को केवल प्रॉम्प्ट या उत्तरों का अनुवाद करने के बजाय तुर्की में स्पष्ट तर्क करने के लिए अनुकूलित करती है।

पाइपलाइन LoRA एडाप्टर्स का उपयोग करके 15,991 तुर्की तर्क उदाहरणों पर सूपरवाइज्ड फाइन-ट्यूनिंग (SFT) लागू करती है।
यह फिर प्रॉक्सी-फ़िल्टर्ड तुर्की गणित वातावरण में GRPO-फैमिली रीइन्फोर्समेंट लर्निंग का उपयोग करता है।
SFT ने औसत प्रतिक्रिया लंबाई और सोच की थकान को कम किया, लेकिन बेंचमार्क सटीकता को कम कर दिया।
RL ने कुछ गणितीय प्रदर्शन को पुनर्प्राप्त किया, विशेष रूप से AIME24 पर, लेकिन बेस मॉडल के Macro-6 औसत से अधिक नहीं हुआ।

रिलीज़ किए गए step-50 मॉडल को तुर्की तर्क का एक तकनीकी रूप से ईमानदार मूल्यांकन के रूप में सार्वजनिक रूप से उपलब्ध कराया गया है।