Retrieval-Augmented Generation (RAG)에서 프리필 스루풋은 디코드 속도보다 주요 성능 병목 현상입니다. 이는 RAG 쿼리가 프롬프트마다 검색된 컨텍스트의 수천 토큰을 주입하여 초기 처리 단계가 중요해지기 때문입니다.
- Strix Halo와 같은 유니파이드 메모리 시스템에서는 MoE 모델에 대한 충분한 디코드 속력을 갖추고 있음에도 불구하고 프리필 스루풋이 디스크리트 GPU보다 현저히 뒤처집니다.
- 단일 24GB 디스크리트 카드가 이 컨텍스트를 초 단위로 처리하는 반면, 유니파이드 메모리 구성은 첫 번째 토큰이 생성되기 전에 20~60초의 지연을 유발할 수 있습니다.
- 예산에 제약이 있는 사용자에게는 나중에 프리필 작업을 오프로드하기 위해 디스크리트 카드를 추가할 수 있도록 빈 PCIe 슬롯이 있는 하드웨어를 선택하는 것이 권장됩니다.
이 구분이 중요한 이유는 상호작용형 RAG 워크플로우에는 빠른 컨텍스트 처리가 필요하며, 유니파이드 메모리 아키텍처는 현재 전용 그래픽 카드에 비해 이를 제공하는 데 어려움을 겪고 있기 때문입니다.