EntMTP: Acelerando la inferencia de LLM con Predicción Multi-Token Guiada por Entropía

Los autores proponen la Predicción Multi-Token Guiada por Entropía (EntMTP), un programador sin entrenamiento que ajusta dinámicamente la profundidad de especulación durante la inferencia de LLM basándose en la entropía local de generación. Este enfoque aborda la ineficiencia de las topologías estáticas de atención basada en árboles al igualar los requisitos de cómputo con la predecibilidad del contexto.

EntMTP alterna entre árboles óptimos de Pareto específicos para la tarea, condicionados a estimaciones en curso de la entropía local de generación.
El método maximiza el rendimiento esperado de tokens aceptados a través de toda la distribución del texto generado sin sacrificar calidad.
Las evaluaciones incluyen Humaneval, ShareGPT, GSM8k y Litbench.
EntMTP logra una aceleración consistente de 1.15x frente a las líneas base de Hydra.
La aceleración máxima alcanza 1.36x en comparación con las líneas base de Medusa.

Al alinear la profundidad de especulación con los patrones de entropía del lenguaje natural, EntMTP optimiza la eficiencia de la inferencia tanto en regiones de baja entropía como de alta entropía.