DeepSeek V4 Flash يعمل على RTX 5090 بسياق 1M باستخدام نسخة مشتقة من llama.cpp

نجح مستخدم في تحسين نموذج DeepSeek V4 Flash ليعمل على NVIDIA GeForce RTX 5090 باستخدام نسخة مشتقة محددة من llama.cpp. تدعم التكوين نافذة سياق مكونة من مليون رمز مع الاحتفاظ ببعض هامش ذاكرة الفيديو (VRAM).

تظهر نتائج المعايير أن معدل توليد الرموز (TG) انخفض من 22,7 إلى 21,3 رمز/ثانية، وانخفض معدل معالجة المطالبات (PP) من 1105 إلى 927 رمز/ثانية.
يستخدم الإعداد نموذج GGUF مُكمَّم بـ Q2_K، وMoE بدون ذاكرة تخزين مؤقت موحدة للرموز المفتاحية (KV cache)، ويضبط n-cpu-moe على 37.
حقق المستخدم حجم سياق قدره مليون باستخدام حجم غير مجمع (ub) يبلغ 512، مما يتسع ضمن قيود ذاكرة RTX 5090.
تطلب التحسين نسخة مشتقة مخصصة من llama.cpp من مستخدم GitHub fairydreaming وعلميات بناء CMake محددة لهندسة CUDA 120.

يوضح هذا التكوين أن DeepSeek V4 Flash يمكنه العمل مع نوافذ سياق ضخمة على الأجهزة الاستهلاكية، رغم انخفاض معدل الإنتاجية مقارنة بالمقاييس الأساسية.