Uma avaliação do modelo Bonsai-8B de 1 bit da PrismML contra o IBM Granite e outros LLMs revela que o Bonsai-8B alcança a maior precisão na chamada de ferramentas ao usar decodificação restrita por gramática. O teste, conduzido na CPU usando llama.cpp, destaca o papel crítico das restrições de saída para permitir que modelos pequenos e quantizados funcionem eficazmente em tarefas de agentes.

  • Bonsai-8B (Q1_0) alcançou uma taxa de sucesso de 92% com gramática GBNF, apesar de uma pontuação bruta de 0%.
  • IBM Granite-4.1-3B (Q4_K_M) liderou na decodificação sem restrições com uma taxa de sucesso de 72%.
  • A avaliação cobriu 30 casos determinísticos incluindo chamadas de ferramentas individuais, paralelas, sequenciais e de abstenção.
  • Bonsai-8B foi perfeito nas categorias de formato, paralelo, sequencial e abstenção quando a gramática estava ativa.

Os resultados sugerem que, embora modelos de 1 bit possam falhar em tarefas de agentes sem restrições, eles possuem a capacidade semântica necessária para chamar ferramentas quando a saída é restrita por uma gramática.