LordNeel a publié des quantifications GGUF de l'Agents-A1 d'InternScience, un modèle d'agent MoE de 35B basé sur Qwen3.5-MoE. La release inclut un format NVFP4 optimisé pour les GPU Blackwell et intègre le décodage spéculatif à prédiction multi-tokens (MTP) pour améliorer la vitesse d'inférence.

  • Le modèle dispose de ~3B de paramètres actifs sur 256 experts avec une fenêtre de contexte de 256K, conçu pour la recherche à long terme et l'appel d'outils.
  • La qualité a été mesurée par la divergence KL sur les distributions des 64 prochains tokens sur 32 prompts, comparant divers niveaux de quantification au BF16.
  • Les builds NVFP4 nécessitent des GPU Blackwell avec des builds compatibles FP4, tandis que d'autres formats comme IQ4_XS et Q5_K_M offrent une compacité ou une fidélité proche du BF16.
  • Le décodage spéculatif MTP a été greffé depuis un checkpoint sidecar séparé, offrant jusqu'à 1.22× d'augmentation de débit sur le service mono-utilisateur.
  • Les taux d'acceptation des drafts ont atteint 91.5% pour Q4_K_M-MTP avec n_max=1, tout en maintenant la fonctionnalité texte uniquement sans support visuel.

La release fournit aux utilisateurs des options optimisées pour exécuter localement le modèle Agents-A1, équilibrant taille, qualité et vitesse grâce à des techniques de quantification spécifiques et au décodage spéculatif.