Проект TUDUM представляет конвейер для адаптации модели Qwen3.5-27B к выполнению явного рассуждения на турецком языке, а не просто перевода промптов или ответов.

  • Конвейер применяет контролируемое тонкое обучение (SFT) на 15 991 примере турецкого рассуждения с использованием адаптеров LoRA.
  • Затем используется семейство методов усиленного обучения GRPO в среде турецкой математики, отфильтрованной по прокси.
  • SFT сократил среднюю длину ответа и истощение мышления, но снизил точность на бенчмарках.
  • RL восстановил часть математической производительности, особенно на AIME24, но не превысил среднее значение Macro-6 базовой модели.

Выпущенная модель шага-50 публично доступна как технически честная оценка рассуждения на турецком языке.