EntMTP: Ускорение вывода LLM с помощью многозадачного предсказания токенов на основе энтропии

Авторы предлагают Entropy-guided Multi-Token Prediction (EntMTP), планировщик без обучения, который динамически регулирует глубину спекуляции во время вывода LLM на основе локальной энтропии генерации. Этот подход решает проблему неэффективности статических топологий внимания на основе деревьев, согласуя вычислительные требования с предсказуемостью контекста.

EntMTP переключается между специфичными для задачи деревьями Парето, обусловленными текущими оценками локальной энтропии генерации.
Метод максимизирует ожидаемую пропускную способность принятых токенов по всему распределению сгенерированного текста без ущерба для качества.
В бенчмарки включены Humaneval, ShareGPT, GSM8k и Litbench.
EntMTP обеспечивает стабильное ускорение в 1.15 раза по сравнению с базовыми моделями Hydra.
Пиковое ускорение достигает 1.36x по сравнению с базовыми моделями Medusa.

Согласуя глубину спекуляции с паттернами энтропии естественного языка, EntMTP оптимизирует эффективность вывода как в областях с низкой, так и с высокой энтропией.