Un usuario demuestra una pipeline de inferencia desagregada utilizando un DGX Spark para prefilling y una caja Strix Halo para la generación de tokens, logrando aceleraciones significativas para cargas de trabajo de contexto largo. Al descargar el procesamiento intensivo de prompts al DGX y aprovechar el ancho de banda de memoria de Strix para la decodificación, la configuración supera la degradación del rendimiento observada al ejecutarlo solo en Strix.

  • La pipeline ejecuta Qwen 3.5 122B (MTP) GGUF en ambos dispositivos usando llama.cpp y EXO.
  • Las velocidades de generación de tokens son casi idénticas entre las dos máquinas, con una ventaja del 13-15% para el DGX Spark.
  • El prefilling desagregado produce aceleraciones que van de 2.8x a 4.4x en comparación con la ejecución end-to-end en Strix Halo.
  • El procesamiento de prompts independiente de Strix cae de 275 t/s en contextos cortos a 140 t/s en 127k tokens, mientras que el DGX maneja esta carga eficientemente.

Este enfoque permite a los usuarios utilizar hardware de prefilling de alto rendimiento sin desperdiciar su presupuesto de cómputo en la generación de tokens, resolviendo efectivamente el cuello de botella de los bucles agentic de contexto largo.