一位用户通过在 Mac Studio M3 Ultra 和 NVIDIA RTX PRO 6000 之间分割运行 432GB 的 Kimi K2.7 Code 模型并使用 llama.cpp RPC 进行基准测试,发现预填充速度有所提升,而解码性能基本保持不变。

  • 当将模型的 20% 卸载到 GPU 时,预填充速度提高了约 14.8%。
  • 解码速度仅显示出 4.2% 的微小增益,导致总请求时间改善了约 12.3%。
  • 该设置在 RTX 卡上实现了 20% 的实际最大分割(上下文为 128K),在更高的分割比例下失败。
  • RPC 流量通过直接以太网连接测量约为 112-113 MiB/s,网络成本在预填充期间比解码期间更明显。

作者得出结论,虽然这种配置有助于在不同设备间容纳更大的模型,但性能提升受限于网络互连,因此它主要用于增加容量而非显著的速度提升。