В этой статье сообщается об обновлении модели Ornith-1.0-35B, включающем нативную голову черновика MTP, привитую к корпусу IQ4_XS для самоспекулятивного декодирования в llama.cpp. Автор предоставляет комплексные метрики производительности, включая пропускную способность, время до первого токена (TTFT) и возможности работы с длинным контекстом на одном GPU RTX PRO 6000 Blackwell.
- Скорость декодирования в однопоточном режиме увеличилась в 1.3-1.35 раза, поднявшись с 172.6 до 233.8 токенов в секунду.
- Распределение следующего токена идентично байтам модели только с целевой головой при KLD 0.0, с BF16 KLD равным 0.073.
- Графт IQ4_XS-MTP занимает около 19.6 ГБ, располагаясь между Q5_K_M и Q4_K_M по метрикам точности.
- Пропускная способность масштабируется с ~243 ток/с при параллелизме 1 до ~656 ток/с при параллелизме 16 для квантования Q4_K_M.
- Время префилла длинного контекста масштабируется с 94 мс при 512 токенах до примерно 6.3 секунд при 32k токенах.
Обновление позволяет пользователям проводить бенчмарки и использовать вариант спекулятивного декодирования, который обеспечивает значительное ускорение при сохранении высокой точности по сравнению с более крупными и требовательными к памяти квантованиями.