RX 7900 XT पर चलने वाले 13 स्थानीय LLMs का एक बेंचमार्क दिखाता है कि 65K और 128K के बीच संदर्भों के साथ एजेंटिक वर्कफ़्लो के लिए, प्रीफिल चरण वॉल-क्लॉक समय का 94–99% ले लेता है, जिससे टोकन जनरेशन की गति मुख्य रूप से अप्रासंगिक हो जाती है।
- परीक्षण में 5GB से 18GB तक के घने, MoE, Mamba2 हाइब्रिड और MLA MoE मॉडलों के लिए Vulkan बैकएंड के साथ llama.cpp build 9860 का उपयोग किया गया।
- Trinity-Mini (MoE 3B/26B) ने 131K संदर्भ के लिए 923 tok/s की उच्चतम प्रीफिल गति हासिल की, जबकि GLM-4.7-Flash MLA बाधाओं के कारण 16K से ऊपर क्रैश हो गया।
- Devstral-24B ने 131K परीक्षण पूरा नहीं किया क्योंकि इसके KV cache आवश्यकताएं GPU की VRAM क्षमता से अधिक थीं।
निष्कर्ष सुझाते हैं कि लंबे-संदर्भ एजेंटिक कार्यों को संभालते समय पैरामीटर गिनती या जनरेशन गति की तुलना में प्रीफिल प्रदर्शन को अनुकूलित करना और KV cache आकार का प्रबंधन अधिक महत्वपूर्ण हैं।