TUDUM项目提出了一种管道,用于将Qwen3.5-27B模型适配为执行土耳其语的显式推理,而不仅仅是翻译提示或答案。
- 该管道使用LoRA适配器在15,991个土耳其语推理示例上应用监督微调(SFT)。
- 随后在代理过滤的土耳其语数学环境中使用GRPO系列强化学习。
- SFT减少了平均响应长度和思考耗尽,但降低了基准测试准确率。
- RL恢复了一些数学性能,特别是在AIME24上,但未超过基础模型的Macro-6平均值。
发布的step-50模型作为对土耳其语推理的诚实技术评估公开可用。
TUDUM项目提出了一种管道,用于将Qwen3.5-27B模型适配为执行土耳其语的显式推理,而不仅仅是翻译提示或答案。
发布的step-50模型作为对土耳其语推理的诚实技术评估公开可用。