ユーザーがM1 MaxでAgents-A1-Q8_0-GGUFのパフォーマンスを報告

あるユーザーが、64GBのRAMを搭載したM1 Max Mac上で動作するInternScience/Agents-A1-Q8_0-GGUFモデルに関する主観的なフィードバックを共有しています。このモデルは、262Kのコンテキストウィンドウ全体を使用して、プレフィルで約500トークン/秒、生成で40トークン/秒を達成します。

モデルは、温度0.85とtop-p 0.95を含む推奨パラメータを持つllama-serverを通じてHugging Face経由でアクセスされます。
パフォーマンスベンチマークによると、指定されたハードウェアでは約500 t/s ppおよび40 t/s tgの速度が示されています。
初期の使用感ではQwenモデルに匹敵する能力を示唆していますが、ユーザーは決定打となる比較にはまだ早すぎると指摘しています。

この投稿は、ローカルエージェントベースのワークフローにおけるその実用性を強調し、他のユーザーにも同モデルの使用経験を共有するよう呼びかけています。