Локальная производительность Qwen 27B на потребительском оборудовании

Пользователь сообщает, что Qwen 27B, квантованный до q6kxl и работающий с многозадачным предсказанием токенов на системе с GPU 4090 и 3090, достигает скорости декодирования 50-90 токенов/с и скорости предварительного заполнения 1500-2200 токенов/с. Модель надежно взаимодействует с различными API и генерирует функциональный код для одностраничных приложений, документов LaTeX, парсеров и краулеров.

Модель: Qwen 27B (квантование q6kxl)
Оборудование: система 4090+3090 с 96 ГБ VRAM
Скорость декодирования: 50-90 токенов/с
Скорость предварительного заполнения: 1500-2200 токенов/с
Возможности: обрабатывает кодовые базы среднего размера, сохраняя существующую схему для обновлений.

Эта конфигурация выделяется как первая локальная модель, обеспечивающая надежную связность и скорость на этом оборудовании без необходимости extensive настройки инструментов или harnesses.