JetSpec: Спекулятивное декодирование с параллельным черновым построением дерева обеспечивает ускорение вывода LLM до 9.64x без потерь

JetSpec представляет метод спекулятивного декодирования под названием каузальное параллельное черновое построение дерева, который совместно оптимизирует стоимость и качество черновика для снижения задержки генерации LLM.

Подход достигает ускорения до 9.64x в сквозном режиме на MATH-500 и 4.58x на открытой беседе при сохранении точности без потерь.

JetSpec строит дерево, сохраняющее каузальность, за один проход, решая дилемму, с которой сталкивались предыдущие методы спекулятивного декодирования: авторегрессионные головы несут высокие затраты, а блоки-диффузионные головы создают несогласованные ветви.

Благодаря оптимизациям CUDA graph и ядер JetSpec достигает примерно 1000 токенов в секунду (TPS) на одном GPU B200.

Этот метод обеспечивает значительное ускорение вывода без ущерба для качества выходных данных, предлагая практическое решение для развертывания больших языковых моделей с высокой пропускной способностью.