Пользователь провел бенчмарк запуска модели Kimi K2.7 Code объемом 432 ГБ, разделенной между Mac Studio M3 Ultra и NVIDIA RTX PRO 6000 с использованием llama.cpp RPC, обнаружив, что скорости префилла улучшаются, в то время как производительность декодирования остается практически неизменной.

  • Скорость префилла увеличилась примерно на 14,8% при выделении 20% модели на GPU.
  • Скорость декодирования показала лишь незначительный прирост в 4,2%, что привело к общему улучшению времени запроса примерно на 12,3%.
  • Конфигурация достигла практического максимального разделения в 20% на карте RTX с контекстом 128K перед отказом при более высоких значениях.
  • Трафик RPC измерялся примерно на уровне 112-113 МиБ/с по прямому Ethernet-подключению, причем сетевые затраты были более заметны во время префилла, чем декодирования.

Автор приходит к выводу, что, хотя такая конфигурация помогает размещать более крупные модели на разных устройствах, прирост производительности ограничен сетевым соединением, что делает ее в первую очередь полезной для увеличения емкости, а не для значительного ускорения.