Los investigadores proponen GRINQH, un marco de cuantización post-entrenamiento solo de pesos que acelera la decodificación de modelos de lenguaje grandes al unificar la cuantización y la esparsificación. El método aprovecha las magnitudes de activación para asignar dinámicamente los canales de peso a diferentes niveles de precisión, abordando la naturaleza limitada por memoria de la etapa de decodificación.

  • Utiliza las magnitudes de activación como un proxy de importancia computacional para permitir anchos de bits promedio flexibles durante la decodificación.
  • Implementa una disposición de memoria anidada jerárquica para el almacenamiento de multi-precisión dentro de un kernel de GPU personalizado.
  • Supera a los lineamientos base de precisión fija y mixta más avanzados en configuraciones comparables de 3 y 4 bits en los modelos Llama3 y Qwen3.
  • Permite una generación efectiva de 2 bits mientras establece una nueva frontera de Pareto para el compromiso entre la calidad de la generación y la velocidad de inferencia.