LordNeel libera cuantizaciones GGUF de los Agentes-A1 de 35B de InternScience con NVFP4 y descodificación especulativa MTP

LordNeel ha publicado cuantizaciones GGUF de Agents-A1 de InternScience, un modelo de agente MoE de 35B basado en Qwen3.5-MoE. La publicación incluye un formato NVFP4 optimizado para GPUs Blackwell e integra la descodificación especulativa de predicción multitoken (MTP) para mejorar la velocidad de inferencia.

El modelo cuenta con ~3B parámetros activos entre 256 expertos y una ventana de contexto de 256K, diseñado para búsqueda a largo plazo y llamada de herramientas.
La calidad se midió usando la divergencia KL sobre las distribuciones de los siguientes 64 tokens en 32 prompts, comparando varios niveles de cuantización contra BF16.
Las compilaciones NVFP4 requieren GPUs Blackwell con compilaciones compatibles con FP4, mientras que otros formatos como IQ4_XS y Q5_K_M ofrecen compacidad o fidelidad cercana a BF16.
La descodificación especulativa MTP se incorporó desde un checkpoint secundario separado, logrando hasta un aumento de rendimiento de 1.22× en el servicio para un solo usuario.
Las tasas de aceptación de borrador alcanzaron el 91.5% para Q4_K_M-MTP con n_max=1, manteniendo la funcionalidad solo de texto sin soporte de visión.

La publicación ofrece a los usuarios opciones optimizadas para ejecutar el modelo Agents-A1 localmente, equilibrando tamaño, calidad y velocidad mediante técnicas específicas de cuantización y descodificación especulativa.