Декодер MiniMax M3 EAGLE3 был преобразован в формат GGUF и теперь совместим с llama.cpp. Проверки на системе 2x3090, 128 ГБ с использованием UD-Q2_K_XL квантования показали, что производительность увеличилась с 2,3 до 5 токенов в секунду при использовании --fit и сохранении модели в VRAM.