media r/LocalLLaMA · 3 小时前 · open_models

PrismML的1-bit Bonsai-8B在CPU上使用语法进行工具调用时优于IBM Granite

译自 English → 中文

对PrismML的1-bit Bonsai-8B模型与IBM Granite及其他LLM的基准测试显示，在使用语法约束解码时，Bonsai-8B实现了最高的工具调用准确率。该测试使用llama.cpp在CPU上进行，突出了输出约束在使小型量化模型有效执行代理任务中的关键作用。

尽管原始得分为0%，但Bonsai-8B (Q1_0) 在使用GBNF语法时达到了92%的通过率。
IBM Granite-4.1-3B (Q4_K_M) 在无约束解码中领先，通过率为72%。
评估涵盖了30个确定性案例，包括单个、并行、顺序和放弃的工具调用。
当语法激活时，Bonsai-8B在格式、并行、顺序和放弃类别中表现完美。

结果表明，虽然1-bit模型可能在无约束的代理任务中失败，但当输出受语法约束时，它们具备进行工具调用所需的语义能力。

重要性 1/3 r/LocalLLaMA Evaluation & benchmarks Inference efficiency