Проект TUDUM представляет конвейер для адаптации модели Qwen3.5-27B к выполнению явного рассуждения на турецком языке, а не просто перевода промптов или ответов.
- Конвейер применяет контролируемое тонкое обучение (SFT) на 15 991 примере турецкого рассуждения с использованием адаптеров LoRA.
- Затем используется семейство методов усиленного обучения GRPO в среде турецкой математики, отфильтрованной по прокси.
- SFT сократил среднюю длину ответа и истощение мышления, но снизил точность на бенчмарках.
- RL восстановил часть математической производительности, особенно на AIME24, но не превысил среднее значение Macro-6 базовой модели.
Выпущенная модель шага-50 публично доступна как технически честная оценка рассуждения на турецком языке.