あるユーザーが、様々な修正と最適化を含むカスタムllama.cppブランチを使用してDeepSeek V4 Proをローカルで実行した際のパフォーマンス向上を報告しています。この記事では、Epyc 9374FシステムとRTX PRO 6000 Max-Qを搭載した環境でのベンチマーク結果が共有されており、メインラインビルドではモデルのメモリ使用量が依然として高いことが指摘されています。
- ベンチマークテストは、12 x 96GB DDR5 RAMと96GB VRAMを備えたハードウェア上で、794GBのGGUFファイルを使用して実施されました。
- カスタムブランチは、ライトニングインデクサーの計算バッファやCUDAのtop-k一時バッファに起因する過剰なメモリ消費の問題を解決しています。
- メインラインのllama.cppでは、量子化されたKVキャッシュのサポートが壊れており、プロンプトキャッシュの再利用やバッチ準備に関する潜在的なバグが存在します。
著者は、特定の最適化によって速度が向上することを強調していますが、メインラインのllama.cppに依存するユーザーは、大きなメモリオーバーヘッドと機能的なバグに遭遇する可能性があるとしています。