一位用户分享了在配备 64GB RAM 的 M1 Max Mac 上运行 InternScience/Agents-A1-Q8_0-GGUF 模型的经验反馈。该模型在使用完整的 262K 上下文窗口时,预填充速度约为每秒 500 个 token,生成速度约为每秒 40 个 token。
- 通过 Hugging Face 使用 llama-server 访问该模型,并采用推荐参数,包括 temperature 0.85 和 top-p 0.95。
- 性能基准测试显示,在指定硬件上速度约为 500 t/s pp 和 40 t/s tg。
- 早期使用表明其能力与 Qwen 模型相当,但用户指出现在下定论还为时过早。
该帖子邀请其他人分享他们使用该模型的经验,强调其在本地基于代理的工作流中的可行性。