Раздельная обработка промптов с DGX Spark и Strix Halo

Пользователь демонстрирует разделенный конвейер вывода (inference pipeline) с использованием DGX Spark для префиллинга (prefilling) и машины Strix Halo для генерации токенов, достигая значительного ускорения для рабочих нагрузок с длинным контекстом. За счет переноса вычислительно интенсивной обработки промптов на DGX и использования пропускной способности памяти Strix для декодирования, эта конфигурация преодолевает снижение производительности, наблюдаемое при работе Strix в одиночку.

Конвейер запускает Qwen 3.5 122B (MTP) GGUF на обоих устройствах с использованием llama.cpp и EXO.
Скорости генерации токенов практически идентичны на обеих машинах, при этом преимущество DGX Spark составляет всего 13-15%.
Раздельный префиллинг обеспечивает ускорение от 2.8x до 4.4x по сравнению с запуском end-to-end на Strix Halo.
Обработка промптов Strix в автономном режиме падает с 275 t/s для коротких контекстов до 140 t/s для 127k токенов, тогда как DGX справляется с этой нагрузкой эффективно.

Этот подход позволяет пользователям использовать высокопроизводительное оборудование для префиллинга, не расходуя его вычислительный бюджет на генерацию токенов, эффективно решая проблему узкого места в long-context agentic loops.