JetSpec: El descodificado especulativo con redacción paralela de árboles permite una aceleración de inferencia LLM sin pérdidas de hasta 9.64x

JetSpec introduce un método de descodificación especulativa llamado redacción causal de árboles en paralelo que co-optimiza el costo y la calidad del borrador para reducir la latencia de generación de LLM. El enfoque logra una aceleración end-to-end de hasta 9.64x en MATH-500 y 4.58x en chat abierto mientras mantiene la precisión sin pérdidas.

JetSpec redacta un árbol que preserva la causalidad en un solo pase, abordando el dilema al que se enfrentan los métodos anteriores de descodificación especulativa donde las cabezas autoregresivas incurren en altos costos o las cabezas de difusión por bloques producen ramas inconsistentes.

Con optimizaciones de grafos CUDA y kernels, JetSpec se traduce a aproximadamente 1000 tokens por segundo (TPS) en una sola GPU B200.

Este método permite aceleraciones significativas en la inferencia sin sacrificar la calidad de salida, ofreciendo una solución práctica para el despliegue de modelos de lenguaje grandes de alto rendimiento.