Un benchmark du modèle Bonsai-8B 1-bit de PrismML contre le Granite d'IBM et d'autres LLMs révèle que Bonsai-8B atteint la plus haute précision d'appel d'outils lors de l'utilisation du décodage contraint par grammaire. Ce test, réalisé sur CPU avec llama.cpp, met en évidence le rôle critique des contraintes de sortie pour permettre aux petits modèles quantifiés de fonctionner efficacement pour les tâches d'agent.

  • Bonsai-8B (Q1_0) a atteint un taux de réussite de 92% avec la grammaire GBNF, malgré un score brut de 0%.
  • IBM Granite-4.1-3B (Q4_K_M) a mené le décodage non contraint avec un taux de réussite de 72%.
  • L'évaluation couvrait 30 cas déterministes incluant les appels d'outils uniques, parallèles, séquentiels et d'abstention.
  • Bonsai-8B était parfait à travers les catégories de format, parallèle, séquentiel et abstention lorsque la grammaire était active.

Les résultats suggèrent que bien que les modèles 1-bit puissent échouer sur des tâches d'agent non contraintes, ils possèdent la capacité sémantique nécessaire pour l'appel d'outils lorsque la sortie est contrainte par une grammaire.