Seorang pengguna membagikan umpan balik anekdotal mengenai model InternScience/Agents-A1-Q8_0-GGUF yang berjalan di Mac M1 Max dengan RAM 64GB. Model ini mencapai sekitar 500 token per detik untuk prefill dan 40 token per detik untuk generasi menggunakan jendela konteks penuh 262K.
- Model diakses melalui Hugging Face lewat llama-server dengan parameter yang direkomendasikan termasuk suhu 0.85 dan top-p 0.95.
- Benchmark kinerja menunjukkan kecepatan sekitar 500 t/s pp dan 40 t/s tg pada perangkat keras yang ditentukan.
- Penggunaan awal menunjukkan kemampuan yang sebanding dengan model Qwen, meskipun pengguna mencatat bahwa masih terlalu dini untuk perbandingan definitif.
Postingan tersebut mengundang orang lain untuk berbagi pengalaman mereka dengan model ini, menyoroti kelayakannya untuk alur kerja berbasis agen lokal.