Дополнительное исследование работы GLM-5.2 NVFP4 на четырех узлах DGX Spark устраняет предыдущую проблему с производительностью, когда высокие коэффициенты принятия были невозможны при контексте 128K.

Причиной ошибки была ошибка в `SpeculativeConfig.create_draft_parallel_config()` vLLM, которая не копировала `decode_context_parallel_size`, из-за чего слои черновика игнорировали разбиение DCP. Это приводило к тому, что механизмы внимания обрабатывали локальные фрагменты кэша как глобальные данные, что вызывало падение коэффициентов принятия для MTP2 и MTP3.

  • Производительность улучшилась с ~15 ток/с до ~24 ток/с при контексте 128K с использованием DCP4 и MTP3/MTP4.
  • Коэффициенты принятия MTP на позицию достигли 0.90, 0.79 и 0.67 для первых трех спекулятивных токенов.
  • Исправление заключалось в добавлении отсутствующей строки конфигурации для отражения логики основного репозитория и перебазировании на более новую ветку vLLM.

Это решение устраняет предыдущий компромисс между длиной контекста и скоростью, позволяя пользователям запускать полный контекст 128K с высокой пропускной способностью на данной конфигурации оборудования.