Um usuário faz o benchmark da execução do modelo Kimi K2.7 Code de 432GB dividido entre um Mac Studio M3 Ultra e uma NVIDIA RTX PRO 6000 usando llama.cpp RPC, descobrindo que as velocidades de prefill melhoram enquanto o desempenho de decode permanece em grande parte inalterado.

  • A velocidade de prefill aumentou aproximadamente 14.8% ao descarregar 20% do modelo para a GPU.
  • A velocidade de decode mostrou apenas um ganho menor de 4.2%, resultando em uma melhoria total no tempo de solicitação de cerca de 12.3%.
  • A configuração alcançou uma divisão máxima prática de 20% no cartão RTX com contexto de 128K antes de falhar em divisões maiores.
  • O tráfego RPC foi medido em aproximadamente 112-113 MiB/s através de uma conexão Ethernet direta, com custos de rede sendo mais notáveis durante o prefill do que o decode.

O autor conclui que, embora essa configuração ajude a ajustar modelos maiores entre dispositivos, os ganhos de desempenho são limitados pela interconexão de rede, tornando-a principalmente útil para capacidade em vez de melhorias significativas de velocidade.