UltraQuant представляет метод 4-битного кэширования KV, разработанный специально для рабочих нагрузок агентов с большим контекстом. Он обеспечивает сокращение времени до первого токена на поздних этапах на 3,47 раза и увеличение пропускной способности вывода на 1,63 раза по сравнению с кэшированием KV в формате FP8, используя запросы в формате FP8, тензоры KV в формате FP4 и поддержку native AMD CDNA4 scaled-MFMA.