Traitement des prompts désagrégé avec DGX Spark et Strix Halo
Un utilisateur démontre un pipeline d'inférence désagrégé utilisant un DGX Spark pour le préremplissage (prefilling) et une station Strix Halo pour la génération de tokens, obtenant des accélérations significatives pour les charges de travail à contexte long. En déchargeant le traitement intensif des prompts vers le DGX tout en exploitant la bande passante mémoire du Strix pour le décodage, cette configuration surmonte la dégradation des performances observée lors d'un exécution autonome sur le Strix.