UltraQuant introduce un método de caché KV de 4 bits diseñado para cargas de trabajo de agentes con alta demanda de contexto. Logra una reducción de 3.47x en el tiempo P50 hasta el primer token en rondas tardías y un aumento de 1.63x en el rendimiento de salida en comparación con el caché KV FP8, utilizando consultas FP8, tensores KV FP4 y soporte nativo AMD CDNA4 para scaled-MFMA.