IBM Granite और अन्य LLMs के खिलाफ PrismML के 1-bit Bonsai-8B मॉडल का एक बेंचमार्क यह दर्शाता है कि व्याकरण-बाध्यकारी डिकोडिंग का उपयोग करते समय Bonsai-8B टूल कॉलिंग में उच्चतम सटीकता प्राप्त करता है। परीक्षण, llama.cpp का उपयोग करके CPU पर किया गया, आउटपुट बाधाओं के महत्वपूर्ण भूमिका को उजागर करता है जो छोटे, क्वांटाइज्ड मॉडलों को एजेंट कार्यों के लिए प्रभावी ढंग से काम करने की अनुमति देता है।
- GBNF व्याकरण के साथ Bonsai-8B (Q1_0) ने 92% पास दर हासिल की, हालांकि कच्चा स्कोर 0% था।
- IBM Granite-4.1-3B (Q4_K_M) बिना किसी बाधा वाले डिकोडिंग में 72% पास दर के साथ अग्रणी था।
- मूल्यांकन में एकल, समानांतर, क्रमिक और त्याग टूल कॉल्स सहित 30 निर्धारित मामले शामिल थे।
- जब व्याकरण सक्रिय था, तो Bonsai-8B प्रारूप, समानांतर, क्रमिक और त्याग श्रेणियों में पूर्ण था।
परिणाम सुझाव देते हैं कि हालांकि 1-bit मॉडल बिना किसी बाधा वाले एजेंट कार्यों में विफल हो सकते हैं, उनके पास व्याकरण द्वारा आउटपुट को बाध्य करने पर टूल कॉलिंग के लिए आवश्यक अर्थपूर्ण क्षमता है।