GRINQH: Jerarquía de Cuantización Basada en Entrada Graduada para Generación Eficiente de LLM

Los investigadores proponen GRINQH, un marco de cuantización post-entrenamiento solo de pesos que acelera la decodificación de modelos de lenguaje grandes al unificar la cuantización y la esparsificación. El método aprovecha las magnitudes de activación para asignar dinámicamente los canales de peso a diferentes niveles de precisión, abordando la naturaleza limitada por memoria de la etapa de decodificación.

Utiliza las magnitudes de activación como un proxy de importancia computacional para permitir anchos de bits promedio flexibles durante la decodificación.
Implementa una disposición de memoria anidada jerárquica para el almacenamiento de multi-precisión dentro de un kernel de GPU personalizado.
Supera a los lineamientos base de precisión fija y mixta más avanzados en configuraciones comparables de 3 y 4 bits en los modelos Llama3 y Qwen3.
Permite una generación efectiva de 2 bits mientras establece una nueva frontera de Pareto para el compromiso entre la calidad de la generación y la velocidad de inferencia.