Пользователь Reddit сообщает о запуске модели Qwen3.6 27B в квантовании Q4 с использованием выгрузки в ОЗУ на RTX 3060 с 12 ГБ VRAM, отмечая пропускную способность DRAM всего около 30 ГБ/с во время вывода.
- Пользователь достиг пропускной способности 3,12 токена в секунду с контекстом из 18 тысяч токенов, задаваясь вопросом, заключается ли узкое место в реализации LM Studio или в аппаратном обеспечении его процессора.
- Тестирование с меньшим запросом и 4 потоками CPU с кэшем KV Q8 и 37 слоями выгрузки на GPU увеличило пропускную способность до 4,95 токена в секунду при сохранении пропускной способности 30–35 ГБ/с.