通过 llama.cpp RPC 在 Mac Studio M3 Ultra + RTX PRO 6000 上对 Kimi K2.7 Code Q3 进行基准测试

一位用户通过在 Mac Studio M3 Ultra 和 NVIDIA RTX PRO 6000 之间分割运行 432GB 的 Kimi K2.7 Code 模型并使用 llama.cpp RPC 进行基准测试，发现预填充速度有所提升，而解码性能基本保持不变。

作者得出结论，虽然这种配置有助于在不同设备间容纳更大的模型，但性能提升受限于网络互连，因此它主要用于增加容量而非显著的速度提升。