llama.cppのフォークでDeepSeek V4 FlashがRTX 5090上で1Mコンテキストで動作

あるユーザーが、llama.cppの特定のフォークを使用して、NVIDIA GeForce RTX 5090上でDeepSeek V4 Flashモデルを実行するように最適化することに成功しました。この構成は、VRAMにいくつかの余裕を残しつつ、100万トークンのコンテキストウィンドウをサポートします。

ベンチマーク結果によると、トークン生成（TG）のスループットは22.7から21.3トークン/秒に低下し、プロンプト処理（PP）のスループットは1105から927トークン/秒に減少しました。
このセットアップでは、Q2_K量子化されたGGUFモデル、統一KVキャッシュのないMoE、およびn-cpu-moeを37に設定しています。
ユーザーは、バッチ処理されていないサイズ（ub）512を使用することで、RTX 5090のメモリ制約内に収まる100万のコンテキストサイズを実現しました。
最適化には、GitHubユーザーfairydreamingによるカスタムllama.cppフォークと、CUDAアーキテクチャ120用の特定のCMakeビルドフラグが必要でした。

この構成は、ベースラインメトリクスと比較してスループットが低下するものの、DeepSeek V4 Flashがコンシューマーハードウェア上で巨大なコンテキストウィンドウで動作可能であることを示しています。