بالنسبة للتوليد المعزز بالاسترجاع (RAG)، يعد إخراج التعبئة المسبقة هو الاختناق الرئيسي للأداء بدلاً من سرعة فك التشفير. والسبب في ذلك أن استعلامات RAG تُدخل آلاف الرموز من السياق المسترجع في كل طلب، مما يجعل مرحلة المعالجة الأولية حاسمة.

  • على أنظمة الذاكرة الموحدة مثل Strix Halo، يتخلف إخراج التعبئة المسبقة بشكل كبير عن بطاقات الرسومات المنفصلة رغم توفر سرعات فك تشفير كافية لنماذج مزيج الخبراء (MoE).
  • بينما تعالج بطاقة منفصلة واحدة بسعة 24 جيجابايت هذا السياق في ثوانٍ، قد تؤدي إعدادات الذاكرة الموحدة إلى توقفات تتراوح بين 20 و60 ثانية قبل توليد الرمز الأول.
  • بالنسبة للمستخدمين المقيدِين بالميزانية، يُوصى باختيار أجهزة تحتوي على فتحة PCIe فارغة للسماح بإضافة بطاقة منفصلة لاحقًا خصيصًا لتخفيف أعباء مهام التعبئة المسبقة.

تكتسي هذه التفرقة أهمية كبيرة لأن سير عمل RAG التفاعلي يتطلب معالجة سريعة للسياق، وهو ما تواجهه حاليًا معماريات الذاكرة الموحدة صعوبة في توفيره مقارنة ببطاقات الرسومات المخصصة.