LordNeelがInternScienceの35B Agents-A1のGGUF量子化をNVFP4およびMTP推論で公開

LordNeelは、Qwen3.5-MoEに基づく35B Mixture of ExpertsエージェントモデルであるInternScienceのAgents-A1のGGUF量子化版を公開しました。このリリースには、Blackwell GPU向けに最適化されたNVFP4フォーマットと、推論速度を向上させるためのマルチトークン予測（MTP）推論が統合されています。

モデルは256Kのコンテキストウィンドウを持ち、256のエクスパート間で約3Bのアクティブパラメータを使用し、長期検索やツール呼び出しに設計されています。
品質は32のプロンプトにおける上位64次のトークン分布に対するKLダイバージェンスで測定され、各種量子化レベルがBF16と比較されました。
NVFP4ビルドにはFP4対応のBlackwell GPUが必要ですが、IQ4_XSやQ5_K_Mなどの他のフォーマットはコンパクトさまたはBF16に近い忠実度を提供します。
MTP推論は別のサイドカーチェックポイントから移植され、単一ユーザーサービングにおいて最大1.22倍のスループット向上をもたらしました。
Q4_K_M-MTP（n_max=1）におけるドラフト採用率は91.5%に達し、ビジョンサポートなしでテキストのみの機能も維持しています。

このリリースは、特定の量子化技術と推論を用いてサイズ、品質、速度のバランスを取りながら、Agents-A1モデルをローカルで実行するための最適化されたオプションを提供します。