TUDUM mengadaptasi Qwen3.5-27B untuk penalaran Turki melalui SFT dan RL

Proyek TUDUM menyajikan sebuah pipeline untuk mengadaptasi model Qwen3.5-27B agar melakukan penalaran eksplisit dalam bahasa Turki, bukan hanya menerjemahkan prompt atau jawaban.

Pipeline ini menerapkan fine-tuning terawasi pada 15.991 contoh penalaran Turki menggunakan adapter LoRA.
Kemudian menggunakan pembelajaran penguatan keluarga GRPO pada lingkungan matematika Turki yang difilter proksi.
SFT mengurangi panjang respons rata-rata dan kelelahan berpikir tetapi menurunkan akurasi benchmark.
RL memulihkan sebagian kinerja matematika, khususnya pada AIME24, tetapi tidak melebihi rata-rata Macro-6 model dasar.

Model step-50 yang dirilis tersedia secara publik sebagai evaluasi yang jujur secara teknis mengenai penalaran pemikiran Turki.