Sebuah benchmark model Bonsai-8B 1-bit dari PrismML melawan Granite dari IBM dan LLM lainnya mengungkapkan bahwa Bonsai-8B mencapai akurasi pemanggilan alat tertinggi saat menggunakan decoding yang dibatasi oleh tata bahasa. Uji ini, yang dilakukan pada CPU menggunakan llama.cpp, menyoroti peran kritis batasan output dalam memungkinkan model kuantisasi kecil berfungsi secara efektif untuk tugas agen.

  • Bonsai-8B (Q1_0) mencapai tingkat keberhasilan 92% dengan tata bahasa GBNF, meskipun skor mentahnya 0%.
  • IBM Granite-4.1-3B (Q4_K_M) memimpin dalam decoding tanpa batasan dengan tingkat keberhasilan 72%.
  • Evaluasi mencakup 30 kasus deterministik termasuk pemanggilan alat tunggal, paralel, berurutan, dan abstention.
  • Bonsai-8B sempurna di seluruh kategori format, paralel, berurutan, dan abstention ketika tata bahasa aktif.

Hasil ini menunjukkan bahwa meskipun model 1-bit mungkin gagal pada tugas agen tanpa batasan, mereka memiliki kemampuan semantik yang diperlukan untuk pemanggilan alat ketika output dibatasi oleh tata bahasa.