Todos os artigos
media r/LocalLLaMA · há 10 h

Bonsai-8B de 1 bit da PrismML supera IBM Granite em chamada de ferramentas na CPU com gramática

Uma avaliação do modelo Bonsai-8B de 1 bit da PrismML contra o IBM Granite e outros LLMs revela que o Bonsai-8B alcança a maior precisão na chamada de ferramentas ao usar decodificação restrita por gramática. O teste, conduzido na CPU usando llama.cpp, destaca o papel crítico das restrições de saída para permitir que modelos pequenos e quantizados funcionem eficazmente em tarefas de agentes.

media r/LocalLLaMA · há 11 h

O que há no seu RAG?

Um usuário do Reddit questiona a utilidade prática da Geração Aumentada por Recuperação (RAG) para projetos pessoais envolvendo codificação, trabalho de sysadmin e pequenas bases de código. O autor argumenta que o conhecimento padrão da indústria já é bem coberto pelos modelos, enquanto fontes de dados específicas como bases de código ou referências de API são muito pequenas para exigir indexação ou grandes demais para serem gerenciadas eficientemente.

media r/LocalLLaMA · há 11 h

Um truque barato para saída estruturada confiável: alimentar o erro de validação de volta na tentativa

Para melhorar a confiabilidade ao gerar saída estruturada de grandes modelos de linguagem, propõe-se um método que alimenta os erros de validação e a saída anterior do modelo de volta no prompt durante as tentativas. Esta abordagem transforma o processo de rolar respostas aleatórias novamente em autocorreção de erros específicos editando a tentativa anterior.

media Hugging Face Forums · há 22 h

Mostrar HF: ServBay, um Runtime & Gateway de IA Local-First para Agentes de Codificação

O ServBay é apresentado como uma solução de runtime e infraestrutura local-first projetada para preencher a lacuna entre agentes de codificação de IA e a máquina host do usuário. Ele aborda o problema da "última milha", onde agentes inteligentes carecem de capacidades em nível de sistema para configurar bancos de dados, domínios ou certificados SSL sem intervenção manual do desenvolvedor.

media Hugging Face Forums · há 22 h

Prism Transformer: Agendamentos Progressivos de Cabeças para Processamento de Atenção Hierárquica

O Prism Transformer introduz um agendamento progressivo de cabeças que varia o número de cabeças de atenção entre as camadas, começando com menos cabeças mais largas nas camadas iniciais e aumentando a contagem monotonicamente com a profundidade. Esta abordagem desafia a alocação uniforme padrão ao atender às necessidades estruturais distintas das camadas iniciais versus tardias sem adicionar sobrecarga arquitetural.