4대의 DGX Spark 노드에서 GLM-5.2 NVFP4를 실행하는 후속 조사로 인해 128K 컨텍스트에서 높은 수용률이 불가능했던 이전의 성능 병목 현상이 해결되었습니다.
근본 원인은 vLLM의 `SpeculativeConfig.create_draft_parallel_config()` 버그로, `decode_context_parallel_size` 가 복사되지 않아 드래프트 레이어가 DCP 샤딩을 무시하게 되었습니다. 이로 인해 어텐션 메커니즘이 로컬 캐시 조각을 글로벌 데이터로 처리하여 MTP2 및 MTP3의 수용률이 붕괴되었습니다.
- DCP4 및 MTP3/MTP4를 사용하여 128K 컨텍스트에서 ~15 tok/s에서 ~24 tok/s로 성능이 향상되었습니다.
- 첫 세 개의 추측 토큰에 대한 위치별 MTP 수용률은 각각 0.90, 0.79, 0.67에 도달했습니다.
- 수정에는 상위 스트림 로직을 반영하는 누락된 구성 행 추가와 더 새로운 vLLM 브랜치로의 리베이스가 포함됩니다.
이 해결책은 컨텍스트 길이와 속도 간의 이전 트레이드오프를 제거하여 사용자가 이 하드웨어 구성으로 높은 처리량으로 전체 128K 컨텍스트를 실행할 수 있게 합니다.