한 사용자가 llama.cpp RPC를 사용하여 Mac Studio M3 Ultra와 NVIDIA RTX PRO 6000에 분할된 432GB Kimi K2.7 Code 모델을 실행하는 벤치마크를 수행했으며, prefill 속도는 향상되는 반면 decode 성능은 거의 변하지 않는다는 것을 발견했습니다.
- 모델의 20%를 GPU에 오프로딩하면 prefill 속도가 약 14.8% 증가합니다.
- decode 속도는 4.2%의 미미한 향상을 보였으며, 전체 요청 시간 개선은 약 12.3%였습니다.
- 이 구성은 RTX 카드에서 128K 컨텍스트 전에 20% 분할이 실용적인 최대 분할이며, 더 높은 분할에서는 실패했습니다.
- RPC 트래픽은 직접 이더넷 연결을 통해 약 112-113 MiB/s로 측정되었으며, 네트워크 비용은 prefill 동안 decode보다 더 두드러졌습니다.
저자는 이 구성이 장치 간에 더 큰 모델을 수용하는 데 도움이 되지만 성능 향상은 네트워크 인터코넥트에 의해 제한되어 주로 용량을 위해 유용하다고 결론지었습니다.