LordNeel ha publicado cuantizaciones GGUF de Agents-A1 de InternScience, un modelo de agente MoE de 35B basado en Qwen3.5-MoE. La publicación incluye un formato NVFP4 optimizado para GPUs Blackwell e integra la descodificación especulativa de predicción multitoken (MTP) para mejorar la velocidad de inferencia.
- El modelo cuenta con ~3B parámetros activos entre 256 expertos y una ventana de contexto de 256K, diseñado para búsqueda a largo plazo y llamada de herramientas.
- La calidad se midió usando la divergencia KL sobre las distribuciones de los siguientes 64 tokens en 32 prompts, comparando varios niveles de cuantización contra BF16.
- Las compilaciones NVFP4 requieren GPUs Blackwell con compilaciones compatibles con FP4, mientras que otros formatos como IQ4_XS y Q5_K_M ofrecen compacidad o fidelidad cercana a BF16.
- La descodificación especulativa MTP se incorporó desde un checkpoint secundario separado, logrando hasta un aumento de rendimiento de 1.22× en el servicio para un solo usuario.
- Las tasas de aceptación de borrador alcanzaron el 91.5% para Q4_K_M-MTP con n_max=1, manteniendo la funcionalidad solo de texto sin soporte de visión.
La publicación ofrece a los usuarios opciones optimizadas para ejecutar el modelo Agents-A1 localmente, equilibrando tamaño, calidad y velocidad mediante técnicas específicas de cuantización y descodificación especulativa.