あるユーザーが、llama.cpp RPCを使用して、Mac Studio M3 UltraとNVIDIA RTX PRO 6000に分割された432GBのKimi K2.7 Codeモデルを実行するベンチマークを行い、prefill速度が向上する一方で、decodeパフォーマンスはほぼ変わらないことを発見した。
- モデルの20%をGPUにオフロードすると、prefill速度が約14.8%向上した。
- decode速度はわずか4.2%の向上にとどまり、合計のリクエスト時間の改善は約12.3%となった。
- この構成では、RTXカード上で128Kコンテキストの前に20%の分割が実用的な最大値であり、それ以上の分割では失敗した。
- RPCトラフィックは直接イーサネット接続で約112-113 MiB/sと測定され、ネットワークコストはprefill時の方がdecode時よりも顕著だった。
著者は、この構成によりデバイス間でより大きなモデルを収容できるが、パフォーマンスの向上はネットワークインターコネクトによって制限されており、主に容量のために有用であると結論づけている。