Seorang pengguna melakukan benchmark menjalankan model Kimi K2.7 Code berukuran 432GB yang dibagi antara Mac Studio M3 Ultra dan NVIDIA RTX PRO 6000 menggunakan llama.cpp RPC, menemukan bahwa kecepatan prefill meningkat sementara kinerja decode tetap hampir tidak berubah.

  • Kecepatan prefill meningkat sekitar 14,8% saat memindahkan 20% model ke GPU.
  • Kecepatan decode hanya menunjukkan peningkatan minor sebesar 4,2%, menghasilkan perbaikan waktu permintaan total sekitar 12,3%.
  • Konfigurasi ini mencapai batas split praktis maksimum sebesar 20% pada kartu RTX dengan konteks 128K sebelum gagal pada split yang lebih tinggi.
  • Lalu lintas RPC diukur sekitar 112-113 MiB/s melalui koneksi Ethernet langsung, dengan biaya jaringan lebih terlihat selama prefill dibandingkan decode.

Penulis menyimpulkan bahwa meskipun konfigurasi ini membantu memuat model yang lebih besar di antara perangkat, peningkatan kinerja dibatasi oleh interkoneksi jaringan, menjadikannya terutama berguna untuk kapasitas daripada peningkatan kecepatan yang signifikan.