يفكر مستخدم على ريدت في شراء أربعة وحدات معالجة رسومات Ascend GX10 للاستعداد لتشغيل نموذج "fable 5" مفتوح المصدر المستقبلي، مستشهداً بمعايير الأداء من مستخدمين آخرين اختبروا GLM5.2 على عتاد مشابه.
- تُظهر المعايير أن GLM5.2 يحقق سرعة معالجة للسياق (prompt) تتراوح بين 400-500 tok/s وسرعة إخراج تبلغ حوالي 15 tok/s بطول سياق يبلغ 128k على أربعة أجهزة DGX Sparks أو Ascend GX10.
- يستهلك هذا الإعداد حوالي 1000W من الطاقة، وهو ما يلاحظ المستخدم أنه قابل للإدارة.
- يُقترح التكميم (Quantization) كطريقة لتحسين usability نظراً لسرعات الاستدلال الحالية.