Пользователь сообщает, что Qwen 27B, квантованный до q6kxl и работающий с многозадачным предсказанием токенов на системе с GPU 4090 и 3090, достигает скорости декодирования 50-90 токенов/с и скорости предварительного заполнения 1500-2200 токенов/с. Модель надежно взаимодействует с различными API и генерирует функциональный код для одностраничных приложений, документов LaTeX, парсеров и краулеров.

  • Модель: Qwen 27B (квантование q6kxl)
  • Оборудование: система 4090+3090 с 96 ГБ VRAM
  • Скорость декодирования: 50-90 токенов/с
  • Скорость предварительного заполнения: 1500-2200 токенов/с
  • Возможности: обрабатывает кодовые базы среднего размера, сохраняя существующую схему для обновлений.

Эта конфигурация выделяется как первая локальная модель, обеспечивающая надежную связность и скорость на этом оборудовании без необходимости extensive настройки инструментов или harnesses.