Kecepatan prefill adalah bottleneck RAG, bukan decode

Untuk Retrieval-Augmented Generation (RAG), throughput prefill adalah bottleneck kinerja utama, bukan kecepatan decode. Ini karena query RAG menyuntikkan ribuan token konteks yang diambil ke dalam setiap prompt, membuat fase pemrosesan awal menjadi kritis.

Pada sistem memori terunifikasi seperti Strix Halo, throughput prefill tertinggal jauh dibandingkan GPU diskrit meskipun memiliki kecepatan decode yang memadai untuk model Mixture of Experts (MoE).
Sementara satu kartu diskrit 24GB memproses konteks ini dalam hitungan detik, setup memori terunifikasi dapat menyebabkan jeda selama 20 hingga 60 detik sebelum token pertama dihasilkan.
Bagi pengguna yang dibatasi anggaran, disarankan untuk memilih perangkat keras dengan slot PCIe kosong agar memungkinkan penambahan kartu diskrit di kemudian hari khusus untuk mengosongkan tugas prefill.

Pembedaan ini penting karena alur kerja RAG interaktif memerlukan pemrosesan konteks yang cepat, yang saat ini sulit disediakan oleh arsitektur memori terunifikasi dibandingkan dengan kartu grafis khusus.