GRINQH: Jerarquía de Cuantificación Basada en Entrada Graduada para Generación Eficiente de LLM

Los investigadores proponen GRINQH, un marco de cuantización post-entrenamiento solo de pesos que acelera la decodificación de modelos de lenguaje grandes al unificar la cuantificación y la esparsificación. El método asigna dinámicamente los canales de peso a diferentes niveles de precisión basándose en las magnitudes de activación, abordando la naturaleza limitada por memoria de la etapa de decodificación.

Utiliza las magnitudes de activación como un proxy para la importancia computacional para permitir anchos de bits promedio flexibles durante la decodificación.
Implementa una disposición de memoria anidada jerárquica para el almacenamiento de multi-precisión dentro de un kernel de GPU personalizado.
Supera a las líneas base de precisión fija y mixta más avanzadas en configuraciones comparables de 3 y 4 bits en los modelos Llama3 y Qwen3.
Permite una generación efectiva de 2-bit mientras establece una nueva frontera de Pareto para el compromiso entre la calidad de la generación y la velocidad de inferencia.