Benchmarking do Kimi K2.7 Code Q3 no Mac Studio M3 Ultra + RTX PRO 6000 via llama.cpp RPC

Um usuário faz o benchmark da execução do modelo Kimi K2.7 Code de 432GB dividido entre um Mac Studio M3 Ultra e uma NVIDIA RTX PRO 6000 usando llama.cpp RPC, descobrindo que as velocidades de prefill melhoram enquanto o desempenho de decode permanece em grande parte inalterado.

A velocidade de prefill aumentou aproximadamente 14.8% ao descarregar 20% do modelo para a GPU.
A velocidade de decode mostrou apenas um ganho menor de 4.2%, resultando em uma melhoria total no tempo de solicitação de cerca de 12.3%.
A configuração alcançou uma divisão máxima prática de 20% no cartão RTX com contexto de 128K antes de falhar em divisões maiores.
O tráfego RPC foi medido em aproximadamente 112-113 MiB/s através de uma conexão Ethernet direta, com custos de rede sendo mais notáveis durante o prefill do que o decode.

O autor conclui que, embora essa configuração ajude a ajustar modelos maiores entre dispositivos, os ganhos de desempenho são limitados pela interconexão de rede, tornando-a principalmente útil para capacidade em vez de melhorias significativas de velocidade.