Un utilisateur rapporte les performances d'Agents-A1-Q8_0-GGUF sur M1 Max

Un utilisateur partage des retours anecdotiques concernant le modèle InternScience/Agents-A1-Q8_0-GGUF fonctionnant sur un Mac M1 Max avec 64 Go de RAM. Le modèle atteint environ 500 tokens par seconde pour le préremplissage et 40 tokens par seconde pour la génération en utilisant une fenêtre de contexte complète de 262K.

Le modèle est accessible via Hugging Face à travers llama-server avec des paramètres recommandés incluant une température de 0.85 et un top-p de 0.95.
Les benchmarks de performance indiquent des vitesses d'environ 500 t/s pp et 40 t/s tg sur le matériel spécifié.
L'utilisation préliminaire suggère une capacité comparable aux modèles Qwen, bien que l'utilisateur note qu'il est trop tôt pour des comparaisons définitives.

Le post invite les autres à partager leurs expériences avec le modèle, soulignant sa viabilité pour les flux de travail locaux basés sur des agents.