LordNeel publie les quantisations GGUF de l'Agents-A1 35B d'InternScience avec NVFP4 et décodage spéculatif MTP

LordNeel a publié des quantifications GGUF de l'Agents-A1 d'InternScience, un modèle d'agent MoE de 35B basé sur Qwen3.5-MoE. La release inclut un format NVFP4 optimisé pour les GPU Blackwell et intègre le décodage spéculatif à prédiction multi-tokens (MTP) pour améliorer la vitesse d'inférence.

Le modèle dispose de ~3B de paramètres actifs sur 256 experts avec une fenêtre de contexte de 256K, conçu pour la recherche à long terme et l'appel d'outils.
La qualité a été mesurée par la divergence KL sur les distributions des 64 prochains tokens sur 32 prompts, comparant divers niveaux de quantification au BF16.
Les builds NVFP4 nécessitent des GPU Blackwell avec des builds compatibles FP4, tandis que d'autres formats comme IQ4_XS et Q5_K_M offrent une compacité ou une fidélité proche du BF16.
Le décodage spéculatif MTP a été greffé depuis un checkpoint sidecar séparé, offrant jusqu'à 1.22× d'augmentation de débit sur le service mono-utilisateur.
Les taux d'acceptation des drafts ont atteint 91.5% pour Q4_K_M-MTP avec n_max=1, tout en maintenant la fonctionnalité texte uniquement sans support visuel.

La release fournit aux utilisateurs des options optimisées pour exécuter localement le modèle Agents-A1, équilibrant taille, qualité et vitesse grâce à des techniques de quantification spécifiques et au décodage spéculatif.