LordNeel publicou quantizações GGUF do Agents-A1 da InternScience, um modelo de agente MoE de 35B baseado no Qwen3.5-MoE. O lançamento inclui um formato NVFP4 otimizado para GPUs Blackwell e integra decodificação especulativa de previsão multi-token (MTP) para melhorar a velocidade de inferência.
- O modelo possui ~3B parâmetros ativos distribuídos entre 256 especialistas, com uma janela de contexto de 256K, projetado para busca de longo prazo e chamada de ferramentas.
- A qualidade foi medida usando divergência KL nas distribuições dos top-64 próximos tokens em 32 prompts, comparando vários níveis de quantização contra BF16.
- As compilações NVFP4 exigem GPUs Blackwell com compilações compatíveis com FP4, enquanto outros formatos como IQ4_XS e Q5_K_M oferecem compactação ou fidelidade próxima a BF16.
- A decodificação especulativa MTP foi incorporada a partir de um checkpoint auxiliar separado, resultando em aumento de até 1.22× na taxa de transferência no atendimento a usuários únicos.
- As taxas de aceitação do rascunho atingiram 91.5% para Q4_K_M-MTP com n_max=1, mantendo a funcionalidade apenas de texto sem suporte a visão.
O lançamento oferece aos usuários opções otimizadas para executar o modelo Agents-A1 localmente, equilibrando tamanho, qualidade e velocidade por meio de técnicas específicas de quantização e decodificação especulativa.