A velocidade de prefill é o gargalo do RAG, não a decodificação

Para Retrieval-Augmented Generation (RAG), a taxa de transferência de prefill é o principal gargalo de desempenho, e não a velocidade de decodificação. Isso ocorre porque as consultas do RAG injetam milhares de tokens de contexto recuperado em cada prompt, tornando a fase inicial de processamento crítica.

Em sistemas de memória unificada como Strix Halo, a taxa de transferência de prefill fica significativamente atrás das GPUs discretas, apesar de ter velocidades de decodificação adequadas para modelos Mixture of Experts (MoE).
Enquanto um único cartão discreto de 24 GB processa esse contexto em segundos, configurações de memória unificada podem causar pausas de 20 a 60 segundos antes que o primeiro token seja gerado.
Para usuários com restrições orçamentárias, recomenda-se selecionar hardware com uma slot PCIe livre para permitir adicionar um cartão discreto mais tarde especificamente para descarregar tarefas de prefill.

Essa distinção é importante porque fluxos de trabalho interativos do RAG exigem processamento rápido de contexto, algo que as arquiteturas de memória unificada atualmente têm dificuldade em fornecer em comparação com placas gráficas dedicadas.