बेंचमार्क में पाया गया कि 65K+ संदर्भ के साथ एजेंटिक लोड पर प्रीफिल हावी है

RX 7900 XT पर चलने वाले 13 स्थानीय LLMs का एक बेंचमार्क दिखाता है कि 65K और 128K के बीच संदर्भों के साथ एजेंटिक वर्कफ़्लो के लिए, प्रीफिल चरण वॉल-क्लॉक समय का 94–99% ले लेता है, जिससे टोकन जनरेशन की गति मुख्य रूप से अप्रासंगिक हो जाती है।

परीक्षण में 5GB से 18GB तक के घने, MoE, Mamba2 हाइब्रिड और MLA MoE मॉडलों के लिए Vulkan बैकएंड के साथ llama.cpp build 9860 का उपयोग किया गया।
Trinity-Mini (MoE 3B/26B) ने 131K संदर्भ के लिए 923 tok/s की उच्चतम प्रीफिल गति हासिल की, जबकि GLM-4.7-Flash MLA बाधाओं के कारण 16K से ऊपर क्रैश हो गया।
Devstral-24B ने 131K परीक्षण पूरा नहीं किया क्योंकि इसके KV cache आवश्यकताएं GPU की VRAM क्षमता से अधिक थीं।

निष्कर्ष सुझाते हैं कि लंबे-संदर्भ एजेंटिक कार्यों को संभालते समय पैरामीटर गिनती या जनरेशन गति की तुलना में प्रीफिल प्रदर्शन को अनुकूलित करना और KV cache आकार का प्रबंधन अधिक महत्वपूर्ण हैं।