对PrismML的1-bit Bonsai-8B模型与IBM Granite及其他LLM的基准测试显示,在使用语法约束解码时,Bonsai-8B实现了最高的工具调用准确率。该测试使用llama.cpp在CPU上进行,突出了输出约束在使小型量化模型有效执行代理任务中的关键作用。

  • 尽管原始得分为0%,但Bonsai-8B (Q1_0) 在使用GBNF语法时达到了92%的通过率。
  • IBM Granite-4.1-3B (Q4_K_M) 在无约束解码中领先,通过率为72%。
  • 评估涵盖了30个确定性案例,包括单个、并行、顺序和放弃的工具调用。
  • 当语法激活时,Bonsai-8B在格式、并行、顺序和放弃类别中表现完美。

结果表明,虽然1-bit模型可能在无约束的代理任务中失败,但当输出受语法约束时,它们具备进行工具调用所需的语义能力。