Обновление Ornith-1.0-35B GGUF: нативный MTP для спекулятивного декодирования + полная поддержка обслуживания/TTFT/длинного контекста (llama.cpp, tp=1)

В этой статье сообщается об обновлении модели Ornith-1.0-35B, включающем нативную голову черновика MTP, привитую к корпусу IQ4_XS для самоспекулятивного декодирования в llama.cpp. Автор предоставляет комплексные метрики производительности, включая пропускную способность, время до первого токена (TTFT) и возможности работы с длинным контекстом на одном GPU RTX PRO 6000 Blackwell.

Скорость декодирования в однопоточном режиме увеличилась в 1.3-1.35 раза, поднявшись с 172.6 до 233.8 токенов в секунду.
Распределение следующего токена идентично байтам модели только с целевой головой при KLD 0.0, с BF16 KLD равным 0.073.

Графт IQ4_XS-MTP занимает около 19.6 ГБ, располагаясь между Q5_K_M и Q4_K_M по метрикам точности.
Пропускная способность масштабируется с ~243 ток/с при параллелизме 1 до ~656 ток/с при параллелизме 16 для квантования Q4_K_M.

Время префилла длинного контекста масштабируется с 94 мс при 512 токенах до примерно 6.3 секунд при 32k токенах.

Обновление позволяет пользователям проводить бенчмарки и использовать вариант спекулятивного декодирования, который обеспечивает значительное ускорение при сохранении высокой точности по сравнению с более крупными и требовательными к памяти квантованиями.