对于检索增强生成 (RAG),预填充吞吐量是主要的性能瓶颈,而不是解码速度。这是因为 RAG 查询会将数千个检索到的上下文 token 注入到每个提示中,使得初始处理阶段至关重要。

  • 在 Strix Halo 等统一内存系统上,尽管具备适用于 Mixture of Experts (MoE) 模型的足够解码速度,但预填充吞吐量仍显著落后于独立 GPU。
  • 单张 24GB 独立显卡可在数秒内处理此上下文,而统一内存配置可能导致在生成第一个 token 之前出现 20 到 60 秒的停顿。
  • 对于受预算限制的用户,建议选择带有空闲 PCIe 插槽的硬件,以便日后添加独立显卡专门用于卸载预填充任务。

这一区别很重要,因为交互式 RAG 工作流需要快速处理上下文,而统一内存架构目前在这方面难以与专用显卡相媲美。