LordNeel 已发布 InternScience 的 Agents-A1 模型的 GGUF 量化版本。Agents-A1 是一个基于 Qwen3.5-MoE 的 35B MoE(混合专家)智能体模型。

该版本包含针对 Blackwell GPU 优化的 NVFP4 格式,并集成了多令牌预测(MTP)推测解码以提升推理速度。

  • 该模型在 256 个专家中拥有约 3B 活跃参数,上下文窗口为 256K,专为长程搜索和工具调用设计。
  • 质量通过 KL 散度衡量,针对 32 个提示词计算 top-64 下一个令牌分布,并将各种量化级别与 BF16 进行对比。
  • NVFP4 构建需要支持 FP4 的 Blackwell GPU;其他格式如 IQ4_XS 和 Q5_K_M 则提供紧凑或接近 BF16 精度的选项。
  • MTP 推测解码是从单独的侧车检查点移植而来,在单用户服务中吞吐量最高提升 1.22 倍。
  • 对于 n_max=1 的 Q4_K_M-MTP,草稿接受率达到 91.5%,同时保持仅文本功能,不支持视觉。

该发布为用户提供了在本地运行 Agents-A1 模型的优化选项,通过特定的量化技术和推测解码在大小、质量和速度之间取得平衡。