llama.cpp 릴리스 b9866은 Step-3.7-Flash 등 288 전문가를 가진 모델에 대해 topk-moe 융합을 활성화하며, 이전에는 비융합 라우팅 체인으로 폴백되었습니다. 이 변경으로 워프 크기의 배수인 288을 허용하기 위해 적합성 검사에 누락된 템플릿 인스턴스화가 추가되었습니다.
- gfx1151에서 Step-3.7-Flash IQ4_XS로 측정했을 때, 얕은 컨텍스트에서 디코드 처리량(tg128)이 +2.4% 증가했습니다.
- 프롬프트 처리(pp4096)는 융합이 디코드 라우팅에만 영향을 미치므로 변경되지 않았습니다.
- 성능 향상은 깊이에 따라 감소하며, 30k 토큰에 도달하면 단계가 KV 캐시에 대해 어텐션 바인드가 됩니다.
이 최적화는 CUDA 하드웨어에서 특정 혼합 전문가 모델의 디코딩 단계 동안 추론 속도를 개선합니다.