JetSpec: Спекулятивное декодирование с параллельным черновым построением дерева обеспечивает ускорение вывода LLM до 9.64x без потерь
JetSpec представляет метод спекулятивного декодирования под названием каузальное параллельное черновое построение дерева, который совместно оптимизирует стоимость и качество черновика для снижения задержки генерации LLM.