EntMTP: Acelerando la inferencia de LLM con Predicción Multi-Token Guiada por Entropía
Los autores proponen la Predicción Multi-Token Guiada por Entropía (EntMTP), un programador sin entrenamiento que ajusta dinámicamente la profundidad de especulación durante la inferencia de LLM basándose en la entropía local de generación. Este enfoque aborda la ineficiencia de las topologías estáticas de atención basada en árboles al igualar los requisitos de cómputo con la predecibilidad del contexto.