Um usuário demonstra um pipeline de inferência desagregado usando um DGX Spark para prefilling e uma máquina Strix Halo para geração de tokens, alcançando acelerations significativas para cargas de trabalho de contexto longo. Ao descarregar o processamento intensivo de prompts para o DGX e aproveitar a largura de banda de memória do Strix para decodificação, a configuração supera a degradação de desempenho observada ao rodar sozinho no Strix.
- O pipeline executa Qwen 3.5 122B (MTP) GGUF em ambos os dispositivos usando llama.cpp e EXO.
- As velocidades de geração de tokens são quase idênticas entre as duas máquinas, com uma vantagem de apenas 13-15% para o DGX Spark.
- O prefilling desagregado produz acelerations que variam de 2.8x a 4.4x em comparação com a execução end-to-end no Strix Halo.
- O processamento de prompts standalone do Strix cai de 275 t/s em contextos curtos para 140 t/s em 127k tokens, enquanto o DGX lida com essa carga eficientemente.
Essa abordagem permite que os usuários utilizem hardware de prefilling de alto desempenho sem desperdiçar seu orçamento de computação na geração de tokens, resolvendo efetivamente o gargalo dos loops agentic de contexto longo.