Todos os artigos
media Hugging Face Forums · há 14 h

Prism Transformer: Agendamentos Progressivos de Cabeças para Processamento de Atenção Hierárquica

O Prism Transformer introduz um agendamento progressivo de cabeças que varia o número de cabeças de atenção entre as camadas, começando com menos cabeças mais largas nas camadas iniciais e aumentando a contagem monotonicamente com a profundidade. Esta abordagem desafia a alocação uniforme padrão ao atender às necessidades estruturais distintas das camadas iniciais versus tardias sem adicionar sobrecarga arquitetural.

media Hugging Face Forums · há 15 h

Sonho Fractal + Planejamento Inspirado em Quântica: Uma Ferramenta de Descoberta de Conhecimento Auto-organizada com DeepSeek Coder

O autor apresenta uma ferramenta de descoberta de conhecimento auto-organizada que integra a geração de padrões fractais e superposição inspirada na mecânica quântica para aprimorar a exploração de espaços de conhecimento do DeepSeek Coder. O sistema otimiza as trajetórias de busca armazenando caminhos criativos bem-sucedidos como consultas em cache, em vez de memória, adaptando o uso de recursos com base nas limitações de hardware.

github llama.cpp · há 1 d

Lançamento b9857 do llama.cpp: Reestruturação do Flash Attention e novos binários

O lançamento b9857 do llama.cpp introduz uma reestruturação abrangente da implementação do Hexagon Flash Attention, focando em otimizações e melhorias de precisão. Esta atualização inclui mudanças significativas nos módulos hex-mm e hex-fa, como a incorporação de tarefas de quantização nos threads principais de matmul, fusão com operações ADD e otimização do processamento de máscaras.