Una evaluación del modelo Bonsai-8B de 1 bit de PrismML contra IBM Granite y otros LLMs revela que Bonsai-8B logra la mayor precisión en llamadas de herramientas al usar decodificación restringida por gramática. La prueba, realizada en CPU con llama.cpp, destaca el papel crítico de las restricciones de salida para permitir que modelos pequeños y cuantizados funcionen eficazmente en tareas de agentes.

  • Bonsai-8B (Q1_0) logró una tasa de éxito del 92% con gramática GBNF, a pesar de un puntaje crudo del 0%.
  • IBM Granite-4.1-3B (Q4_K_M) lideró la decodificación sin restricciones con una tasa de éxito del 72%.
  • La evaluación cubrió 30 casos deterministas que incluyen llamadas de herramientas individuales, paralelas, secuenciales y de abstención.
  • Bonsai-8B fue perfecto en las categorías de formato, paralelo, secuencial y abstención cuando la gramática estaba activa.

Los resultados sugieren que, aunque los modelos de 1 bit pueden fallar en tareas de agentes sin restricciones, poseen la capacidad semántica necesaria para llamar a herramientas cuando la salida está restringida por una gramática.