あるユーザーが、64GBのRAMを搭載したM1 Max Mac上で動作するInternScience/Agents-A1-Q8_0-GGUFモデルに関する主観的なフィードバックを共有しています。このモデルは、262Kのコンテキストウィンドウ全体を使用して、プレフィルで約500トークン/秒、生成で40トークン/秒を達成します。
- モデルは、温度0.85とtop-p 0.95を含む推奨パラメータを持つllama-serverを通じてHugging Face経由でアクセスされます。
- パフォーマンスベンチマークによると、指定されたハードウェアでは約500 t/s ppおよび40 t/s tgの速度が示されています。
- 初期の使用感ではQwenモデルに匹敵する能力を示唆していますが、ユーザーは決定打となる比較にはまだ早すぎると指摘しています。
この投稿は、ローカルエージェントベースのワークフローにおけるその実用性を強調し、他のユーザーにも同モデルの使用経験を共有するよう呼びかけています。