يقدم مشروع TUDUM خط أنابيب لتكييف نموذج Qwen3.5-27B لأداء استدلال صريح باللغة التركية، بدلاً من مجرد ترجمة المطالبات أو الإجابات.
- يطبق خط الأنابيب الضبط الدقيق الخاضع للإشراف على 15,991 مثالاً للاستدلال التركي باستخدام محولات LoRA.
- ثم يستخدم التعلم المعزز من عائلة GRPO في بيئة رياضية تركية تم تصفيتها بواسطة وكيل.
- أدى SFT إلى تقليل متوسط طول الاستجابة واستنفاد التفكير لكنه خفض دقة المعيار.
- استعاد RL بعض الأداء الرياضي، خاصة على AIME24، لكنه لم يتجاوز المتوسط العام Macro-6 للنموذج الأساسي.
النموذج step-50 المنشور متاح للعامة كتقييم صادق تقنياً للاستدلال بالتفكير التركي.