media r/LocalLLaMA · 2 小时前 · 来源： 5 天前 · open_models

LordNeel 发布 InternScience 35B Agents-A1 的 GGUF 量化版本，支持 NVFP4 和 MTP 推测解码

译自 English → 中文

LordNeel 已发布 InternScience 的 Agents-A1 模型的 GGUF 量化版本。Agents-A1 是一个基于 Qwen3.5-MoE 的 35B MoE（混合专家）智能体模型。

该版本包含针对 Blackwell GPU 优化的 NVFP4 格式，并集成了多令牌预测（MTP）推测解码以提升推理速度。

该模型在 256 个专家中拥有约 3B 活跃参数，上下文窗口为 256K，专为长程搜索和工具调用设计。
质量通过 KL 散度衡量，针对 32 个提示词计算 top-64 下一个令牌分布，并将各种量化级别与 BF16 进行对比。
NVFP4 构建需要支持 FP4 的 Blackwell GPU；其他格式如 IQ4_XS 和 Q5_K_M 则提供紧凑或接近 BF16 精度的选项。
MTP 推测解码是从单独的侧车检查点移植而来，在单用户服务中吞吐量最高提升 1.22 倍。
对于 n_max=1 的 Q4_K_M-MTP，草稿接受率达到 91.5%，同时保持仅文本功能，不支持视觉。

该发布为用户提供了在本地运行 Agents-A1 模型的优化选项，通过特定的量化技术和推测解码在大小、质量和速度之间取得平衡。

重要性 1/3 r/LocalLLaMA Alibaba (Qwen) AI agents Inference efficiency