Sebuah benchmark dari 13 LLM lokal yang berjalan di RX 7900 XT mengungkapkan bahwa untuk alur kerja agentic dengan konteks antara 65K dan 128K, fase prefill mengonsumsi 94–99% waktu nyata, membuat kecepatan generasi token menjadi tidak relevan.
- Tes menggunakan build llama.cpp 9860 dengan backend Vulkan pada model dense, MoE, hibrida Mamba2, dan MLA MoE yang berkisar dari 5GB hingga 18GB.
- Trinity-Mini (MoE 3B/26B) mencapai kecepatan prefill tertinggi sebesar 923 tok/s untuk konteks 131K, sementara GLM-4.7-Flash crash di atas 16K karena batasan MLA.
- Devstral-24B tidak dapat menyelesaikan tes 131K karena persyaratan cache KV melebihi kapasitas VRAM GPU.
Temuan ini menunjukkan bahwa mengoptimalkan kinerja prefill dan mengelola ukuran cache KV lebih kritis daripada jumlah parameter atau kecepatan generasi saat menangani tugas agentic konteks panjang.