Um usuário compartilha feedback anecdótico sobre o modelo InternScience/Agents-A1-Q8_0-GGUF rodando em um Mac com chip M1 Max e 64 GB de RAM. O modelo alcança aproximadamente 500 tokens por segundo para prefill e 40 tokens por segundo para geração usando uma janela de contexto completa de 262K.
- O modelo é acessado via Hugging Face através do llama-server com parâmetros recomendados, incluindo temperature 0.85 e top-p 0.95.
- Os benchmarks indicam velocidades de aproximadamente 500 t/s pp e 40 t/s tg no hardware especificado.
- O uso inicial sugere capacidades comparáveis aos modelos Qwen, embora o usuário note que é cedo demais para comparações definitivas.
A postagem convida outros a compartilhar suas experiências com o modelo, destacando sua viabilidade para fluxos de trabalho locais baseados em agentes.