Скорость префилла — узкое место RAG, а не декодирования

Для Retrieval-Augmented Generation (RAG) пропускная способность префилла является основным узким местом производительности, а не скорость декодирования. Это связано с тем, что запросы RAG внедряют тысячи токенов извлеченного контекста в каждый промпт, делая начальную фазу обработки критически важной.

На системах с объединенной памятью, таких как Strix Halo, пропускная способность префилла значительно отстает от дискретных GPU, несмотря на наличие достаточной скорости декодирования для моделей Mixture of Experts (MoE).
В то время как одна дискретная карта объемом 24 ГБ обрабатывает этот контекст за секунды, конфигурации с объединенной памятью могут вызывать паузы от 20 до 60 секунд до генерации первого токена.
Пользователям, ограниченным в бюджете, рекомендуется выбирать оборудование со свободным слотом PCIe, чтобы иметь возможность позже добавить дискретную карту специально для разгрузки задач префилла.

Это различие имеет значение, потому что интерактивные рабочие процессы RAG требуют быстрой обработки контекста, с чем архитектурам с объединенной памятью в настоящее время труднее справляться по сравнению с выделенными графическими картами.