Автор квантовал модель deepreinforce-ai/Ornith-1.0-35B до формата Q3_K_M, уменьшив её размер примерно до 17 ГБ VRAM, сохранив поведенческую валидность через проверки расхождения Кульбака-Лейблера.
- Квантование Q3_K_M снижает количество бит на вес с 16.01 до 3.87, что приводит к файлу размером 16.8 ГБ, который примерно на 21% меньше варианта Q4_K_M.
- Валидация против базовой линии BF16 показывает среднее KLD 0.366 и частоту совпадений топ-1 токенов 84.4%, по сравнению с 100% для Q6_K и 96.9% для Q8_0.
- Пропускная способность на одном GPU достигает ~240 токенов в секунду в однопоточном режиме и масштабируется до ~493 токенов в секунду через 16 одновременных слотов.
- Автор исправил ошибку в режиме обслуживания рассуждений, когда короткие запросы по кодированию возвращали пустое конечное содержимое, установив serving скрипты по умолчанию с REASONING=off.
- Для валидации использовался исправленный зонд KL следующего токена топ-64, а модели Q4/Q5/Q6/Q8 из основного репозитория были зеркалированы и повторно проверены в том же репозитории.
Это квантование позволяет модели с 35B параметров комфортно работать на одном GPU с значительно меньшими требованиями к памяти по сравнению с вариантами более высокой точности, предоставляя пользователям подтвержденные метрики производительности.