Сравнительное тестирование модели PrismML Bonsai-8B (1 бит) против IBM Granite и других LLM показывает, что Bonsai-8B достигает максимальной точности вызова инструментов при использовании декодирования с грамматическими ограничениями. Тест проводился на CPU с помощью llama.cpp, подчеркивая критическую роль ограничений вывода для эффективной работы малых квантованных моделей в задачах агентов.

  • Bonsai-8B (Q1_0) достиг 92% успешных прохождений с грамматикой GBNF, несмотря на сырой результат 0%.
  • IBM Granite-4.1-3B (Q4_K_M) лидировал в неограниченном декодировании с результатом 72%.
  • Оценка охватила 30 детерминированных случаев, включая одиночные, параллельные, последовательные вызовы и отказ от ответа.
  • Bonsai-8B показал идеальный результат по категориям формата, параллельных, последовательных вызовов и отказа при активной грамматике.

Результаты показывают, что хотя 1-битные модели могут не справляться с задачами агентов без ограничений, они обладают необходимой семантической способностью для вызова инструментов при ограничении вывода грамматикой.