La velocidad de prellenado es el cuello de botella de RAG, no la decodificación

Para Retrieval-Augmented Generation (RAG), el rendimiento del prellenado es el principal cuello de botella de rendimiento en lugar de la velocidad de decodificación. Esto se debe a que las consultas de RAG inyectan miles de tokens de contexto recuperado en cada prompt, haciendo que la fase inicial de procesamiento sea crítica.

En sistemas de memoria unificada como Strix Halo, el rendimiento del prellenado queda significativamente atrás de las GPU discretas a pesar de tener velocidades de decodificación adecuadas para modelos Mixture of Experts (MoE).
Mientras que una tarjeta discreta de 24 GB procesa este contexto en segundos, las configuraciones de memoria unificada pueden causar pausas de 20 a 60 segundos antes de que se genere el primer token.
Para los usuarios con restricciones presupuestarias, se recomienda seleccionar hardware con una ranura PCIe libre para permitir agregar una tarjeta discreta más tarde específicamente para descargar las tareas de prellenado.

Esta distinción es importante porque los flujos de trabajo interactivos de RAG requieren un procesamiento rápido del contexto, algo que las arquitecturas de memoria unificada actualmente tienen dificultades para proporcionar en comparación con las tarjetas gráficas dedicadas.