Retrieval-Augmented Generation (RAG) के लिए, प्रीफिल थ्रूपुट प्रदर्शन का प्राथमिक बाधा है न कि डिकोड गति। ऐसा इसलिए है क्योंकि RAG क्वेरी हर प्रॉम्प्ट में पुनर्प्राप्त संदर्भ के हजारों टोकन इंजेक्ट करती हैं, जिससे प्रारंभिक प्रसंस्करण चरण महत्वपूर्ण हो जाता है।
- Strix Halo जैसे यूनिफाइड मेमोरी सिस्टम पर, Mixture of Experts (MoE) मॉडल के लिए पर्याप्त डिकोड गति होने के बावजूद प्रीफिल थ्रूपुट डिस्क्रीट GPU से काफी पीछे है।
- जबकि एक अकेला 24GB डिस्क्रीट कार्ड इस संदर्भ को सेकंडों में प्रसंस्चित करता है, यूनिफाइड मेमोरी सेटअप पहले टोकन उत्पन्न होने से पहले 20 से 60 सेकंड की रुकावट का कारण बन सकते हैं।
- बजट से बाध्य उपयोगकर्ताओं के लिए, प्रीफिल कार्यों को हल्का करने के लिए बाद में एक डिस्क्रीट कार्ड जोड़ने की अनुमति देने के लिए मुक्त PCIe स्लॉट वाले हार्डवेयर का चयन करने की सलाह दी जाती है।
यह भेद महत्वपूर्ण है क्योंकि इंटरैक्टिव RAG वर्कफ़्लो को तेज़ संदर्भ प्रसंस्करण की आवश्यकता होती है, जिसके लिए यूनिफाइड मेमोरी आर्किटेक्चर वर्तमान में समर्पित ग्राफिक्स कार्ड की तुलना में कठिनाई का सामना कर रहे हैं।