TUDUMプロジェクトは、プロンプトや回答を単に翻訳するのではなく、トルコ語で明示的な推論を行うためにQwen3.5-27Bモデルを適応させるパイプラインを提供します。

  • パイプラインは、LoRAアダプターを使用して15,991件のトルコ語推論例に対して教師ありファインチューニングを適用します。
  • その後、プロキシフィルタリングされたトルコ語数学環境でGRPOファミリーの強化学習を使用します。
  • SFTは平均応答長と思考の枯渇を削減しましたが、ベンチマーク精度を低下させました。
  • RLは数学的なパフォーマンスの一部を回復させ、特にAIME24において顕著でしたが、ベースモデルのMacro-6平均を上回ることはありませんでした。

公開されたstep-50モデルは、トルコ語思考推論の技術的に誠実な評価として一般に利用可能です。