Todos os artigos
media Hugging Face Forums · há 16 h

Mostrar HF: ServBay, um Runtime & Gateway de IA Local-First para Agentes de Codificação

O ServBay é apresentado como uma solução de runtime e infraestrutura local-first projetada para preencher a lacuna entre agentes de codificação de IA e a máquina host do usuário. Ele aborda o problema da "última milha", onde agentes inteligentes carecem de capacidades em nível de sistema para configurar bancos de dados, domínios ou certificados SSL sem intervenção manual do desenvolvedor.

media Hugging Face Forums · há 16 h

Prism Transformer: Agendamentos Progressivos de Cabeças para Processamento de Atenção Hierárquica

O Prism Transformer introduz um agendamento progressivo de cabeças que varia o número de cabeças de atenção entre as camadas, começando com menos cabeças mais largas nas camadas iniciais e aumentando a contagem monotonicamente com a profundidade. Esta abordagem desafia a alocação uniforme padrão ao atender às necessidades estruturais distintas das camadas iniciais versus tardias sem adicionar sobrecarga arquitetural.

media Hugging Face Forums · há 17 h

Sonho Fractal + Planejamento Inspirado em Quântica: Uma Ferramenta de Descoberta de Conhecimento Auto-organizada com DeepSeek Coder

O autor apresenta uma ferramenta de descoberta de conhecimento auto-organizada que integra a geração de padrões fractais e superposição inspirada na mecânica quântica para aprimorar a exploração de espaços de conhecimento do DeepSeek Coder. O sistema otimiza as trajetórias de busca armazenando caminhos criativos bem-sucedidos como consultas em cache, em vez de memória, adaptando o uso de recursos com base nas limitações de hardware.

github llama.cpp · há 1 d

Lançamento b9857 do llama.cpp: Reestruturação do Flash Attention e novos binários

O lançamento b9857 do llama.cpp introduz uma reestruturação abrangente da implementação do Hexagon Flash Attention, focando em otimizações e melhorias de precisão. Esta atualização inclui mudanças significativas nos módulos hex-mm e hex-fa, como a incorporação de tarefas de quantização nos threads principais de matmul, fusão com operações ADD e otimização do processamento de máscaras.