llama.cppの設定を最適化してRTX 5090でQwen3.6 27Bを実行すると平均140 tok/sを達成

あるユーザーが、llama.cppを使用してRTX 5090、AMD 9800X3D、64GB RAMのシステムでQwen3.6 27Bモデルを実行した詳細なパフォーマンス指標を共有しています。

最適化にはq8 KVキャッシュ、192kコンテキスト、MTPドラフト=10、spec-draft-p-min=0.5、バッチ/ubatch 512が含まれます。
混合エージェント型コーディングセッションの6,454サンプルを分析した結果、平均スループットは140.7 tok/s、中央値は134.9 tok/sでした。
ピークパフォーマンスは120-130 tok/sの範囲に達し、233 tok/sまで長い裾野を持ちます。
著者は、llama.cppのハイブリッドアテンション/SWAキャッシュ処理がこのモデルに対してまだ完璧ではないため、プロンプト再処理の警告が発生すると述べています。

この投稿は、平均値がパフォーマンスの変動を隠蔽する可能性があることを強調し、単なる見出しの数値ではなく、速度の実分布を提供しています。