Usuários relatam desempenho do Agents-A1-Q8_0-GGUF no M1 Max

Um usuário compartilha feedback anecdótico sobre o modelo InternScience/Agents-A1-Q8_0-GGUF rodando em um Mac com chip M1 Max e 64 GB de RAM. O modelo alcança aproximadamente 500 tokens por segundo para prefill e 40 tokens por segundo para geração usando uma janela de contexto completa de 262K.

O modelo é acessado via Hugging Face através do llama-server com parâmetros recomendados, incluindo temperature 0.85 e top-p 0.95.
Os benchmarks indicam velocidades de aproximadamente 500 t/s pp e 40 t/s tg no hardware especificado.
O uso inicial sugere capacidades comparáveis aos modelos Qwen, embora o usuário note que é cedo demais para comparações definitivas.

A postagem convida outros a compartilhar suas experiências com o modelo, destacando sua viabilidade para fluxos de trabalho locais baseados em agentes.