Un utilisateur démontre un pipeline d'inférence désagrégé utilisant un DGX Spark pour le préremplissage (prefilling) et une station Strix Halo pour la génération de tokens, obtenant des accélérations significatives pour les charges de travail à contexte long. En déchargeant le traitement intensif des prompts vers le DGX tout en exploitant la bande passante mémoire du Strix pour le décodage, cette configuration surmonte la dégradation des performances observée lors d'un exécution autonome sur le Strix.

  • Le pipeline exécute Qwen 3.5 122B (MTP) GGUF sur les deux appareils en utilisant llama.cpp et EXO.
  • Les vitesses de génération de tokens sont presque identiques entre les deux machines, avec un avantage de seulement 13 à 15 % pour le DGX Spark.
  • Le préremplissage désagrégé offre des accélérations allant de 2,8x à 4,4x par rapport à une exécution de bout en bout sur le Strix Halo.
  • Le traitement autonome des prompts par le Strix chute de 275 t/s pour les courts contextes à 140 t/s pour 127k tokens, tandis que le DGX gère cette charge efficacement.

Cette approche permet aux utilisateurs d'utiliser du matériel de préremplissage haute performance sans gaspiller son budget de calcul sur la génération de tokens, résolvant ainsi efficacement le goulot d'étranglement des boucles agentic à contexte long.