Le goulot d'étranglement du RAG est le pré-remplissage, pas le décodage

Pour la Génération Augmentée par Récupération (RAG), le débit de pré-remplissage est le principal goulot d'étranglement des performances plutôt que la vitesse de décodage. Cela est dû au fait que les requêtes RAG injectent des milliers de tokens de contexte récupéré dans chaque invite, rendant la phase de traitement initiale critique.

Sur les systèmes à mémoire unifiée comme Strix Halo, le débit de pré-remplissage accuse un retard significatif par rapport aux GPU discrets, malgré des vitesses de décodage adéquates pour les modèles Mixture of Experts (MoE).
Tandis qu'une carte discrète unique de 24 Go traite ce contexte en quelques secondes, les configurations à mémoire unifiée peuvent entraîner des pauses de 20 à 60 secondes avant la génération du premier token.
Pour les utilisateurs contraints par leur budget, il est recommandé de choisir du matériel disposant d'un slot PCIe libre pour permettre l'ajout ultérieur d'une carte discrète spécifiquement pour décharger les tâches de pré-remplissage.

Cette distinction est importante car les flux de travail RAG interactifs nécessitent un traitement rapide du contexte, ce que les architectures à mémoire unifiée peinent actuellement à fournir par rapport aux cartes graphiques dédiées.