PrismMLの1ビットBonsai-8BがIBM GraniteをGrammarによるCPUツール呼び出しで上回る

PrismMLの1ビットBonsai-8BモデルとIBMのGraniteおよび他のLLMとのベンチマークにより、Bonsai-8Bは文法制約付きデコーディングを使用する場合に最高のツール呼び出し精度を達成することが示されました。llama.cppを使用してCPUで実施されたこのテストは、出力制約が小さな量子化モデルをエージェントタスクで効果的に機能させるためにいかに重要かを示しています。

Bonsai-8B (Q1_0) は、生のスコアが0%にもかかわらず、GBNF文法で92%のパス率を達成しました。
IBM Granite-4.1-3B (Q4_K_M) は制約なしデコーディングで72%のパス率を記録し首位となりました。
評価には、単一、並列、逐次、およびAbstention（拒否）のツール呼び出しを含む30の決定論的なケースが含まれていました。
文法が有効な場合、Bonsai-8Bはフォーマット、並列、逐次、Abstentionのカテゴリすべてで完璧でした。

これらの結果は、1ビットモデルが制約なしエージェントタスクでは失敗する可能性がある一方で、出力が文法によって制約される場合、ツール呼び出しに必要な意味的能力を備えていることを示唆しています。