LordNeel выпускает GGUF-квантования InternScience's 35B Agents-A1 с NVFP4 и спекулятивным декодированием MTP

LordNeel опубликовал GGUF-квантования модели Agents-A1 от InternScience, экспертной модели агентов на 35B параметров (Mixture of Experts) на базе Qwen3.5-MoE. В релиз включен формат NVFP4, оптимизированный для GPU Blackwell, и интегрировано спекулятивное декодирование с предсказанием нескольких токенов (MTP) для ускорения вывода.

Модель имеет ~3B активных параметров среди 256 экспертов и контекстное окно на 256K токенов, предназначена для долгосрочного поиска и вызова инструментов.
Качество оценивалось с помощью расхождения Кульбака-Лейблера (KL-divergence) по распределениям следующих 64 токенов на 32 промптах, сравнивая различные уровни квантования с BF16.

Для сборки NVFP4 требуются GPU Blackwell с поддержкой FP4, тогда как другие форматы, такие как IQ4_XS и Q5_K_M, предлагают компактность или точность, близкую к BF16.

Спекулятивное декодирование MTP было добавлено из отдельного чекпоинта sidecar, что дало прирост пропускной способности до 1.22× при обслуживании одного пользователя.
Процент принятия черновиков достиг 91.5% для Q4_K_M-MTP с n_max=1, сохраняя функциональность только для текста без поддержки зрения.

Релиз предоставляет пользователям оптимизированные варианты для локального запуска модели Agents-A1, балансируя между размером, качеством и скоростью за счет специфических техник квантования и спекулятивного декодирования.