벤치마크 결과, 65K 이상 컨텍스트에서 에이전틱 워크로드의 프리필이 지배적임

RX 7900 XT에서 실행되는 13개 로컬 LLM의 벤치마크는 65K에서 128K 사이의 컨텍스트를 가진 에이전틱 워크플로우에서 프리필 단계가 월클록 시간의 94–99%를 소비하며, 토큰 생성 속도는 거의 무의미함을 보여줍니다.

테스트에는 llama.cpp 빌드 9860과 Vulkan 백엔드가 사용되었으며, 5GB에서 18GB 범위의 Dense, MoE, Mamba2 하이브리드 및 MLA MoE 모델이 포함되었습니다.
Trinity-Mini (MoE 3B/26B) 는 131K 컨텍스트에 대해 923 tok/s의 최고 프리필 속도를 달성한 반면, GLM-4.7-Flash 는 MLA 제약으로 인해 16K 이상에서 충돌했습니다.
Devstral-24B 는 KV 캐시 요구사항이 GPU VRAM 용량을 초과하여 131K 테스트를 완료하지 못했습니다.

이 결과는 긴 컨텍스트 에이전틱 작업을 처리할 때 매개변수 수나 생성 속도보다 프리필 성능 최적화 및 KV 캐시 크기 관리가 더 중요함을 시사합니다.