Todos os artigos
media r/LocalLLaMA · há 11 h

Bonsai-8B de 1 bit da PrismML supera IBM Granite em chamada de ferramentas na CPU com gramática

Uma avaliação do modelo Bonsai-8B de 1 bit da PrismML contra o IBM Granite e outros LLMs revela que o Bonsai-8B alcança a maior precisão na chamada de ferramentas ao usar decodificação restrita por gramática. O teste, conduzido na CPU usando llama.cpp, destaca o papel crítico das restrições de saída para permitir que modelos pequenos e quantizados funcionem eficazmente em tarefas de agentes.

media r/LocalLLaMA · há 13 h

O que há no seu RAG?

Um usuário do Reddit questiona a utilidade prática da Geração Aumentada por Recuperação (RAG) para projetos pessoais envolvendo codificação, trabalho de sysadmin e pequenas bases de código. O autor argumenta que o conhecimento padrão da indústria já é bem coberto pelos modelos, enquanto fontes de dados específicas como bases de código ou referências de API são muito pequenas para exigir indexação ou grandes demais para serem gerenciadas eficientemente.