预填充速度是 RAG 的瓶颈，而非解码

对于检索增强生成 (RAG)，预填充吞吐量是主要的性能瓶颈，而不是解码速度。这是因为 RAG 查询会将数千个检索到的上下文 token 注入到每个提示中，使得初始处理阶段至关重要。

在 Strix Halo 等统一内存系统上，尽管具备适用于 Mixture of Experts (MoE) 模型的足够解码速度，但预填充吞吐量仍显著落后于独立 GPU。
单张 24GB 独立显卡可在数秒内处理此上下文，而统一内存配置可能导致在生成第一个 token 之前出现 20 到 60 秒的停顿。
对于受预算限制的用户，建议选择带有空闲 PCIe 插槽的硬件，以便日后添加独立显卡专门用于卸载预填充任务。

这一区别很重要，因为交互式 RAG 工作流需要快速处理上下文，而统一内存架构目前在这方面难以与专用显卡相媲美。