Пользователь сообщает, что Qwen 27B, квантованный до q6kxl и работающий с многозадачным предсказанием токенов на системе с GPU 4090 и 3090, достигает скорости декодирования 50-90 токенов/с и скорости предварительного заполнения 1500-2200 токенов/с. Модель надежно взаимодействует с различными API и генерирует функциональный код для одностраничных приложений, документов LaTeX, парсеров и краулеров.
- Модель: Qwen 27B (квантование q6kxl)
- Оборудование: система 4090+3090 с 96 ГБ VRAM
- Скорость декодирования: 50-90 токенов/с
- Скорость предварительного заполнения: 1500-2200 токенов/с
- Возможности: обрабатывает кодовые базы среднего размера, сохраняя существующую схему для обновлений.
Эта конфигурация выделяется как первая локальная модель, обеспечивающая надежную связность и скорость на этом оборудовании без необходимости extensive настройки инструментов или harnesses.