한 사용자가 DGX Spark를 사전 채우기(prefilling)에, Strix Halo 장치를 토큰 생성에 사용하여 분리형 추론 파이프라인을 구현했으며, 긴 컨텍스트 워크로드에서 상당한 속도 향상을 달성했습니다. 계산 집약적인 프롬프트 처리를 DGX로 오프로드하고 Strix의 메모리 대역폭을 디코딩에 활용함으로써, Strix 단독 실행 시 발생하는 성능 저하를 극복했습니다.

  • 파이프라인은 llama.cpp와 EXO를 사용하여 Qwen 3.5 122B (MTP) GGUF 모델을 두 장치 간에 실행합니다.
  • 두 기계 간 토큰 생성 속도는 거의 동일하며, DGX Spark가 13-15%의 이점만 있습니다.
  • 분리형 사전 채우기는 Strix Halo에서 엔드투엔드로 실행하는 것과 비교해 2.8배에서 4.4배의 속도 향상을 제공합니다.
  • Strix의 단독 프롬프트 처리 속도는 짧은 컨텍스트에서 275 t/s에서 127k 토큰에서 140 t/s로 감소하는 반면, DGX는 이 부하를 효율적으로 처리합니다.

이 접근 방식은 사용자가 고성능 사전 채우기 하드웨어를 활용하면서도 토큰 생성에 계산 자원을 낭비하지 않도록 하여, 긴 컨텍스트 에이전틱 루프의 병목 현상을 효과적으로 해결합니다.