Proyek TUDUM menyajikan sebuah pipeline untuk mengadaptasi model Qwen3.5-27B agar melakukan penalaran eksplisit dalam bahasa Turki, bukan hanya menerjemahkan prompt atau jawaban.
- Pipeline ini menerapkan fine-tuning terawasi pada 15.991 contoh penalaran Turki menggunakan adapter LoRA.
- Kemudian menggunakan pembelajaran penguatan keluarga GRPO pada lingkungan matematika Turki yang difilter proksi.
- SFT mengurangi panjang respons rata-rata dan kelelahan berpikir tetapi menurunkan akurasi benchmark.
- RL memulihkan sebagian kinerja matematika, khususnya pada AIME24, tetapi tidak melebihi rata-rata Macro-6 model dasar.
Model step-50 yang dirilis tersedia secara publik sebagai evaluasi yang jujur secara teknis mengenai penalaran pemikiran Turki.