EntMTP: Ускорение вывода LLM с помощью многозадачного предсказания токенов на основе энтропии
Авторы предлагают Entropy-guided Multi-Token Prediction (EntMTP), планировщик без обучения, который динамически регулирует глубину спекуляции во время вывода LLM на основе локальной энтропии генерации. Этот подход решает проблему неэффективности статических топологий внимания на основе деревьев, согласуя вычислительные требования с предсказуемостью контекста.