Un utilisateur a effectué un benchmark de l'exécution du modèle Kimi K2.7 Code de 432 Go réparti entre un Mac Studio M3 Ultra et une NVIDIA RTX PRO 6000 à l'aide de llama.cpp RPC, constatant que les vitesses de prefill s'améliorent tandis que les performances de decode restent largement inchangées.
- La vitesse de prefill a augmenté d'environ 14,8 % lors du transfert de 20 % du modèle vers le GPU.
- La vitesse de decode n'a montré qu'une amélioration mineure de 4,2 %, résultant en une amélioration globale du temps de requête d'environ 12,3 %.
- La configuration a atteint une répartition maximale pratique de 20 % sur la carte RTX avec un contexte de 128K avant d'échouer à des répartitions plus élevées.
- Le trafic RPC a été mesuré à environ 112-113 MiB/s sur une connexion Ethernet directe, les coûts réseau étant plus perceptibles pendant le prefill que pendant le decode.
L'auteur conclut que bien que cette configuration aide à faire tenir des modèles plus grands sur plusieurs appareils, les gains de performance sont limités par l'interconnexion réseau, ce qui la rend principalement utile pour la capacité plutôt que pour des améliorations significatives de vitesse.