TUDUM адаптирует Qwen3.5-27B для турецкого рассуждения через SFT и RL

Проект TUDUM представляет конвейер для адаптации модели Qwen3.5-27B к выполнению явного рассуждения на турецком языке, а не просто перевода промптов или ответов.

Конвейер применяет контролируемое тонкое обучение (SFT) на 15 991 примере турецкого рассуждения с использованием адаптеров LoRA.
Затем используется семейство методов усиленного обучения GRPO в среде турецкой математики, отфильтрованной по прокси.
SFT сократил среднюю длину ответа и истощение мышления, но снизил точность на бенчмарках.
RL восстановил часть математической производительности, особенно на AIME24, но не превысил среднее значение Macro-6 базовой модели.

Выпущенная модель шага-50 публично доступна как технически честная оценка рассуждения на турецком языке.