LordNeelは、Qwen3.5-MoEに基づく35B Mixture of ExpertsエージェントモデルであるInternScienceのAgents-A1のGGUF量子化版を公開しました。このリリースには、Blackwell GPU向けに最適化されたNVFP4フォーマットと、推論速度を向上させるためのマルチトークン予測(MTP)推論が統合されています。

  • モデルは256Kのコンテキストウィンドウを持ち、256のエクスパート間で約3Bのアクティブパラメータを使用し、長期検索やツール呼び出しに設計されています。
  • 品質は32のプロンプトにおける上位64次のトークン分布に対するKLダイバージェンスで測定され、各種量子化レベルがBF16と比較されました。
  • NVFP4ビルドにはFP4対応のBlackwell GPUが必要ですが、IQ4_XSやQ5_K_Mなどの他のフォーマットはコンパクトさまたはBF16に近い忠実度を提供します。
  • MTP推論は別のサイドカーチェックポイントから移植され、単一ユーザーサービングにおいて最大1.22倍のスループット向上をもたらしました。
  • Q4_K_M-MTP(n_max=1)におけるドラフト採用率は91.5%に達し、ビジョンサポートなしでテキストのみの機能も維持しています。

このリリースは、特定の量子化技術と推論を用いてサイズ、品質、速度のバランスを取りながら、Agents-A1モデルをローカルで実行するための最適化されたオプションを提供します。