يكشف معيار أداء لموديل Bonsai-8B ذو البت الواحد من PrismML مقابل Granite من IBM وLLMs أخرى أن Bonsai-8B يحقق أعلى دقة في استدعاء الأدوات عند استخدام فك التشفير المقيد بالقواعد النحوية. يسلط الاختبار، الذي أُجري على وحدة المعالجة المركزية باستخدام llama.cpp، الضوء على الدور الحاسم لقيود الإخراج في تمكين النماذج الصغيرة والمُكمَّأة من العمل بفعالية لمهام الوكلاء.
- حقق Bonsai-8B (Q1_0) معدل نجاح بنسبة 92% مع قواعد GBNF، رغم أن نتيجته الخام كانت 0%.
- قاد IBM Granite-4.1-3B (Q4_K_M) فك التشفير غير المقيد بمعدل نجاح بنسبة 72%.
- شملت التقييمات 30 حالة حتمية تتضمن استدعاءات أدوات فردية، ومتوازية، ومتسلسلة، وامتناعاً عن الإجابة.
- كان Bonsai-8B مثالياً عبر فئات التنسيق، والمتوازي، والمتسلسل، والامتناع عندما كانت القواعد النحوية نشطة.
تشير النتائج إلى أنه بينما قد تفشل النماذج ذات البت الواحد في مهام الوكلاء غير المقيدة، فإنها تمتلك القدرة الدلالية اللازمة لاستدعاء الأدوات عندما يكون الإخراج مقيداً بقواعد نحوية.