arxiv arXiv cs.CL · 2時間前 · ソース: 2日前 · research

TUDUMはSFTとRLによりQwen3.5-27Bをトルコ語推論に適応させる

翻訳元 English → 日本語

TUDUMプロジェクトは、プロンプトや回答を単に翻訳するのではなく、トルコ語で明示的な推論を行うためにQwen3.5-27Bモデルを適応させるパイプラインを提供します。

パイプラインは、LoRAアダプターを使用して15,991件のトルコ語推論例に対して教師ありファインチューニングを適用します。
その後、プロキシフィルタリングされたトルコ語数学環境でGRPOファミリーの強化学習を使用します。
SFTは平均応答長と思考の枯渇を削減しましたが、ベンチマーク精度を低下させました。
RLは数学的なパフォーマンスの一部を回復させ、特にAIME24において顕著でしたが、ベースモデルのMacro-6平均を上回ることはありませんでした。

公開されたstep-50モデルは、トルコ語思考推論の技術的に誠実な評価として一般に利用可能です。

重要度 1/3 arXiv cs.CL Alibaba (Qwen) Research paper Training methods

原文を読む