Пользователь делится отзывом о модели InternScience/Agents-A1-Q8_0-GGUF, запущенной на Mac с чипом M1 Max и 64 ГБ оперативной памяти. Модель демонстрирует скорость около 500 токенов в секунду для префилла и 40 токенов в секунду для генерации при использовании полного контекстного окна размером 262K.

  • Доступ к модели осуществляется через Hugging Face с использованием llama-server и рекомендованных параметров, включая temperature 0.85 и top-p 0.95.
  • Бенчмарки показывают скорость около 500 t/s pp и 40 t/s tg на указанном оборудовании.
  • Раннее использование указывает на возможности, сопоставимые с моделями Qwen, хотя пользователь отмечает, что для окончательных сравнений еще рано.

Пост призывает других делиться опытом использования модели, подчеркивая ее пригодность для локальных рабочих процессов на основе агентов.