يقدم مشروع TUDUM خط أنابيب لتكييف نموذج Qwen3.5-27B لأداء استدلال صريح باللغة التركية، بدلاً من مجرد ترجمة المطالبات أو الإجابات.

  • يطبق خط الأنابيب الضبط الدقيق الخاضع للإشراف على 15,991 مثالاً للاستدلال التركي باستخدام محولات LoRA.
  • ثم يستخدم التعلم المعزز من عائلة GRPO في بيئة رياضية تركية تم تصفيتها بواسطة وكيل.
  • أدى SFT إلى تقليل متوسط طول الاستجابة واستنفاد التفكير لكنه خفض دقة المعيار.
  • استعاد RL بعض الأداء الرياضي، خاصة على AIME24، لكنه لم يتجاوز المتوسط العام Macro-6 للنموذج الأساسي.

النموذج step-50 المنشور متاح للعامة كتقييم صادق تقنياً للاستدلال بالتفكير التركي.