LordNeel ha publicado cuantizaciones GGUF de Agents-A1 de InternScience, un modelo de agente MoE de 35B basado en Qwen3.5-MoE. La publicación incluye un formato NVFP4 optimizado para GPUs Blackwell e integra la descodificación especulativa de predicción multitoken (MTP) para mejorar la velocidad de inferencia.

  • El modelo cuenta con ~3B parámetros activos entre 256 expertos y una ventana de contexto de 256K, diseñado para búsqueda a largo plazo y llamada de herramientas.
  • La calidad se midió usando la divergencia KL sobre las distribuciones de los siguientes 64 tokens en 32 prompts, comparando varios niveles de cuantización contra BF16.
  • Las compilaciones NVFP4 requieren GPUs Blackwell con compilaciones compatibles con FP4, mientras que otros formatos como IQ4_XS y Q5_K_M ofrecen compacidad o fidelidad cercana a BF16.
  • La descodificación especulativa MTP se incorporó desde un checkpoint secundario separado, logrando hasta un aumento de rendimiento de 1.22× en el servicio para un solo usuario.
  • Las tasas de aceptación de borrador alcanzaron el 91.5% para Q4_K_M-MTP con n_max=1, manteniendo la funcionalidad solo de texto sin soporte de visión.

La publicación ofrece a los usuarios opciones optimizadas para ejecutar el modelo Agents-A1 localmente, equilibrando tamaño, calidad y velocidad mediante técnicas específicas de cuantización y descodificación especulativa.