مستخدم يطلب بيانات استخدام الذاكرة لنماذج MoE الكبيرة على أجهزة ذات ذاكرة وصول عشوائي عالية في المستقبل

يطلب مستخدم من رديت بيانات محددة حول استهلاك الذاكرة للنماذج الكبيرة من نوع Mixture of Experts (MoE) لتخطيط بناء عتاد مستقبلي يحتوي على 256 جيجابايت أو 512 جيجابايت من ذاكرة الوصول العشوائي الديناميكية (DRAM) و48 جيجابايت من ذاكرة الفيديو (VRAM). يهدف المستخدم إلى تحميل النماذج الآن بتنسيقات مثل safetensors بدقة 16 بت أو GGUF، لكنه يحتاج إلى معرفة الأحجام الدقيقة للتكميات المختلفة (Q2، Q3، Q4) لتجنب أخطاء حساب التخزين.

اهتمام خاص باستخدام الذاكرة مع ذاكرة تخزين مؤقت KV غير مكمّاة لنماذج GLM5.2 وKimi K2.x وDeepSeekV3.2 وV4 وMimo وQwen 397b وMiniMax M3 وMiniMax M2.x.
مقارنة بتنسيقات التكمية مثل IQ4_XS وQ4_K_S وQ4_K_M وIQ3_XXS للتوافق مع llama.cpp وLMStudio وvLLM وSGLang وKobold.
استفسار حول حدود نواة لينكس لاستخدام الذاكرة على الأجهزة ذات الذاكرة DRAM الكبيرة ولكن ذاكرة VRAM المحدودة، وتحديداً فيما يتعلق بالاستقرار عند السعة القريبة من 90-100%.

يريد المستخدم بيانات واقعية لتحديد أحجام التكمية التي تتناسب مع قيود الذاكرة المستهدفة دون التسبب في أخطاء نفاد الذاكرة أو عدم الاستقرار.