Los investigadores proponen GRINQH, un marco de cuantización post-entrenamiento solo de pesos que acelera la decodificación de modelos de lenguaje grandes al unificar la cuantificación y la esparsificación. El método asigna dinámicamente los canales de peso a diferentes niveles de precisión basándose en las magnitudes de activación, abordando la naturaleza limitada por memoria de la etapa de decodificación.
- Utiliza las magnitudes de activación como un proxy para la importancia computacional para permitir anchos de bits promedio flexibles durante la decodificación.
- Implementa una disposición de memoria anidada jerárquica para el almacenamiento de multi-precisión dentro de un kernel de GPU personalizado.
- Supera a las líneas base de precisión fija y mixta más avanzadas en configuraciones comparables de 3 y 4 bits en los modelos Llama3 y Qwen3.
- Permite una generación efectiva de 2-bit mientras establece una nueva frontera de Pareto para el compromiso entre la calidad de la generación y la velocidad de inferencia.