एक उपयोगकर्ता ने 64GB RAM के साथ M1 Max Mac पर चल रहे InternScience/Agents-A1-Q8_0-GGUF मॉडल के बारे में व्यक्तिगत प्रतिक्रिया साझा की है। पूरे 262K संदर्भ विंडो का उपयोग करते हुए, मॉडल प्रीफिल के लिए लगभग 500 टोकन प्रति सेकंड और जनरेशन के लिए 40 टोकन प्रति सेकंड प्राप्त करता है।
- मॉडल को Hugging Face के माध्यम से llama-server के साथ एक्सेस किया जाता है, जिसमें तापमान 0.85 और top-p 0.95 सहित अनुशंसित पैरामीटर शामिल हैं।
- प्रदर्शन बेंचमार्क निर्दिष्ट हार्डवेयर पर लगभग 500 t/s pp और 40 t/s tg की गति को दर्शाते हैं।
- प्रारंभिक उपयोग Qwen मॉडलों के तुलनीय क्षमताओं का संकेत देता है, हालाँकि उपयोगकर्ता बताते हैं कि निश्चित तुलनाओं के लिए अभी बहुत जल्दबाजी है।
पोस्ट अन्य लोगों को मॉडल के साथ अपने अनुभव साझा करने के लिए आमंत्रित करती है, स्थानीय एजेंट-आधारित कार्यप्रवाहों के लिए इसके वैधता पर प्रकाश डालते हुए।