llama.cppのパッチでRTX 5090上で1MコンテキストのDeepSeek V4 Flashが有効化

開発者がCUDAカーネルを実装し、DSA lightning indexerをllama.cppに接続することで、RTX 5090のようなコンシューマーハードウェアでDeepSeek V4 Flashモデルのローカル推論を1Mトークンコンテキスト付きで可能にしました。

パッチにより、256Kコンテキストでの計算バッファ要件が約67 GiBから3.2 GiBに削減され、3.75 GiB VRAMのみで1Mコンテキストの使用が可能になりました。
プリフィル速度が大幅に向上し、256Kコンテキストで約263 tok/sに達しました（従来は56 tok/s）。
正確性は、100K、512K、1Mトークンのドキュメントに対して10%、50%、90%の深さでneedle-in-haystackテストを用いて検証されました。
この変更点はビルド手順付きのカスタムブランチで利用可能ですが、プリビルドバイナリは提供されていません。

この取り組みにより、ユーザーは過剰なVRAMを必要とせずに、大規模コンテキストのDeepSeek V4 Flashをローカルで実行できるようになります。