Seorang pengguna Reddit mempertimbangkan untuk membeli empat GPU Ascend GX10 untuk bersiap menjalankan model open-source "fable 5" di masa depan, dengan mengutip benchmark kinerja dari pengguna lain yang menguji GLM5.2 pada perangkat keras serupa.

  • Benchmark menunjukkan GLM5.2 mencapai 400-500 tok/s untuk pemrosesan prompt dan sekitar 15 tok/s untuk output pada panjang konteks 128k di empat DGX Sparks atau Ascend GX10.
  • Setup ini menarik sekitar 1000W daya, yang dicatat pengguna sebagai dapat dikelola.
  • Kuantisasi disarankan sebagai metode untuk meningkatkan kegunaan mengingat kecepatan inferensi saat ini.