Seorang pengguna menyelidiki pengoptimalan model Qwen3.6-27B pada setup dual AMD Radeon R9700 menggunakan llama.cpp, membandingkan kinerja antara backend Vulkan dan ROCm.

  • ROCm mencapai throughput prefill yang jauh lebih tinggi (1355 token/detik) dengan menjenuhkan kedua GPU, sedangkan Vulkan hanya menggunakan satu GPU pada satu waktu (682.7 token/detik).
  • Kecepatan generasi token sedikit lebih cepat dengan Vulkan (24.55 token/detik) dibandingkan ROCm (22.3 token/detik), meskipun ROCm membiarkan GPU kedua sebagian menganggur selama fase ini.
  • Menggunakan `split-mode = tensor` meratakan penggunaan GPU tetapi menghasilkan kinerja yang lebih rendah karena potensi keterbatasan bandwidth PCIe.

Penulis mencari saran komunitas tentang penyetelan parameter lebih lanjut atau mesin alternatif seperti vLLM untuk memaksimalkan throughput generasi token.