PrismML의 1비트 Bonsai-8B 모델과 IBM의 Granite 및 기타 LLM을 비교한 벤치마크 결과, Bonsai-8B는 구문 제약 디코딩을 사용할 때 가장 높은 도구 호출 정확도를 달성했습니다. llama.cpp를 사용하여 CPU에서 수행된 이 테스트는 작은 양자화된 모델이 에이전트 작업에서 효과적으로 작동하도록 하는 출력 제약의 중요성을 강조합니다.
- Bonsai-8B (Q1_0)은 원점수가 0%임에도 불구하고 GBNF 구문을 사용하여 92%의 통과율을 달성했습니다.
- IBM Granite-4.1-3B (Q4_K_M)는 제약 없는 디코딩에서 72%의 통과율로 선두를 차지했습니다.
- 평가에는 단일, 병렬, 순차적 및 Abstention 도구 호출을 포함한 30개의 결정론적 케이스가 포함되었습니다.
- 구문이 활성화된 경우 Bonsai-8B는 형식, 병렬, 순차적 및 Abstention 카테고리 모두에서 완벽했습니다.
이 결과는 1비트 모델이 제약 없는 에이전트 작업에서는 실패할 수 있지만, 출력이 구문에 의해 제약될 때 도구 호출에 필요한 의미적 능력을 갖추고 있음을 시사합니다.