Pengguna mempertimbangkan membeli 4x Ascend GX10 untuk inferensi GLM5.2

Seorang pengguna Reddit mempertimbangkan untuk membeli empat GPU Ascend GX10 untuk bersiap menjalankan model open-source "fable 5" di masa depan, dengan mengutip benchmark kinerja dari pengguna lain yang menguji GLM5.2 pada perangkat keras serupa.

Benchmark menunjukkan GLM5.2 mencapai 400-500 tok/s untuk pemrosesan prompt dan sekitar 15 tok/s untuk output pada panjang konteks 128k di empat DGX Sparks atau Ascend GX10.
Setup ini menarik sekitar 1000W daya, yang dicatat pengguna sebagai dapat dikelola.
Kuantisasi disarankan sebagai metode untuk meningkatkan kegunaan mengingat kecepatan inferensi saat ini.