Retrieval-Augmented Generation (RAG)において、プリフィルスループットがデコード速度よりも主要なパフォーマンスボトルネックである。これは、RAGクエリがプロンプトごとに取得されたコンテキストの数千トークンを注入するため、初期処理フェーズが重要になるからである。
- Strix Haloのようなユニファイドメモリシステムでは、MoEモデルに対する十分なデコード速度を備えていながら、プリフィルスループットはディスクリートGPUに比べて大幅に遅れている。
- 単一の24GBディスクリートカードがこのコンテキストを数秒で処理するのに対し、ユニファイドメモリ構成では最初のトークンが生成されるまでに20〜60秒の遅延が生じる可能性がある。
- バudgetに制約があるユーザーには、後からプリフィルタスクをオフロードするためにディスクリートカードを追加できるよう、空きPCIeスロットを持つハードウェアを選択することが推奨される。
この区別が重要なのは、インタラクティブなRAGワークフローには迅速なコンテキスト処理が必要であり、ユニファイドメモリアーキテクチャは現在、専用グラフィックスカードと比較してその提供に苦労しているからである。