تتكيف TUDUM مع Qwen3.5-27B للاستدلال التركي عبر SFT و RL

يقدم مشروع TUDUM خط أنابيب لتكييف نموذج Qwen3.5-27B لأداء استدلال صريح باللغة التركية، بدلاً من مجرد ترجمة المطالبات أو الإجابات.

يطبق خط الأنابيب الضبط الدقيق الخاضع للإشراف على 15,991 مثالاً للاستدلال التركي باستخدام محولات LoRA.
ثم يستخدم التعلم المعزز من عائلة GRPO في بيئة رياضية تركية تم تصفيتها بواسطة وكيل.
أدى SFT إلى تقليل متوسط طول الاستجابة واستنفاد التفكير لكنه خفض دقة المعيار.
استعاد RL بعض الأداء الرياضي، خاصة على AIME24، لكنه لم يتجاوز المتوسط العام Macro-6 للنموذج الأساسي.

النموذج step-50 المنشور متاح للعامة كتقييم صادق تقنياً للاستدلال بالتفكير التركي.