Пользователи сообщают о производительности Agents-A1-Q8_0-GGUF на M1 Max

Пользователь делится отзывом о модели InternScience/Agents-A1-Q8_0-GGUF, запущенной на Mac с чипом M1 Max и 64 ГБ оперативной памяти. Модель демонстрирует скорость около 500 токенов в секунду для префилла и 40 токенов в секунду для генерации при использовании полного контекстного окна размером 262K.

Доступ к модели осуществляется через Hugging Face с использованием llama-server и рекомендованных параметров, включая temperature 0.85 и top-p 0.95.
Бенчмарки показывают скорость около 500 t/s pp и 40 t/s tg на указанном оборудовании.
Раннее использование указывает на возможности, сопоставимые с моделями Qwen, хотя пользователь отмечает, что для окончательных сравнений еще рано.

Пост призывает других делиться опытом использования модели, подчеркивая ее пригодность для локальных рабочих процессов на основе агентов.