Usuarios reportan el rendimiento de Agents-A1-Q8_0-GGUF en M1 Max

Un usuario comparte comentarios anecdóticos sobre el modelo InternScience/Agents-A1-Q8_0-GGUF ejecutándose en un Mac con chip M1 Max y 64 GB de RAM. El modelo alcanza aproximadamente 500 tokens por segundo para el prefill y 40 tokens por segundo para la generación utilizando una ventana de contexto completa de 262K.

El modelo se accede a través de Hugging Face mediante llama-server con parámetros recomendados que incluyen temperature 0.85 y top-p 0.95.
Las pruebas de rendimiento indican velocidades de aproximadamente 500 t/s pp y 40 t/s tg en el hardware especificado.
El uso inicial sugiere capacidades comparables a los modelos Qwen, aunque el usuario señala que es demasiado pronto para comparaciones definitivas.

La publicación invita a otros a compartir sus experiencias con el modelo, destacando su viabilidad para flujos de trabajo locales basados en agentes.