arxiv arXiv cs.CL · 2 小时前 · 来源： 2 天前 · research

TUDUM通过SFT和RL将Qwen3.5-27B适配为土耳其语推理

译自 English → 中文

TUDUM项目提出了一种管道，用于将Qwen3.5-27B模型适配为执行土耳其语的显式推理，而不仅仅是翻译提示或答案。

该管道使用LoRA适配器在15,991个土耳其语推理示例上应用监督微调（SFT）。
随后在代理过滤的土耳其语数学环境中使用GRPO系列强化学习。
SFT减少了平均响应长度和思考耗尽，但降低了基准测试准确率。
RL恢复了一些数学性能，特别是在AIME24上，但未超过基础模型的Macro-6平均值。

发布的step-50模型作为对土耳其语推理的诚实技术评估公开可用。

重要性 1/3 arXiv cs.CL Alibaba (Qwen) Research paper Training methods