あるユーザーが、llama.cpp RPCを使用して、Mac Studio M3 UltraとNVIDIA RTX PRO 6000に分割された432GBのKimi K2.7 Codeモデルを実行するベンチマークを行い、prefill速度が向上する一方で、decodeパフォーマンスはほぼ変わらないことを発見した。

  • モデルの20%をGPUにオフロードすると、prefill速度が約14.8%向上した。
  • decode速度はわずか4.2%の向上にとどまり、合計のリクエスト時間の改善は約12.3%となった。
  • この構成では、RTXカード上で128Kコンテキストの前に20%の分割が実用的な最大値であり、それ以上の分割では失敗した。
  • RPCトラフィックは直接イーサネット接続で約112-113 MiB/sと測定され、ネットワークコストはprefill時の方がdecode時よりも顕著だった。

著者は、この構成によりデバイス間でより大きなモデルを収容できるが、パフォーマンスの向上はネットワークインターコネクトによって制限されており、主に容量のために有用であると結論づけている。