В этой статье сообщается об обновлении модели Ornith-1.0-35B, включающем нативную голову черновика MTP, привитую к корпусу IQ4_XS для самоспекулятивного декодирования в llama.cpp. Автор предоставляет комплексные метрики производительности, включая пропускную способность, время до первого токена (TTFT) и возможности работы с длинным контекстом на одном GPU RTX PRO 6000 Blackwell.

  • Скорость декодирования в однопоточном режиме увеличилась в 1.3-1.35 раза, поднявшись с 172.6 до 233.8 токенов в секунду.
  • Распределение следующего токена идентично байтам модели только с целевой головой при KLD 0.0, с BF16 KLD равным 0.073.
  • Графт IQ4_XS-MTP занимает около 19.6 ГБ, располагаясь между Q5_K_M и Q4_K_M по метрикам точности.
  • Пропускная способность масштабируется с ~243 ток/с при параллелизме 1 до ~656 ток/с при параллелизме 16 для квантования Q4_K_M.
  • Время префилла длинного контекста масштабируется с 94 мс при 512 токенах до примерно 6.3 секунд при 32k токенах.

Обновление позволяет пользователям проводить бенчмарки и использовать вариант спекулятивного декодирования, который обеспечивает значительное ускорение при сохранении высокой точности по сравнению с более крупными и требовательными к памяти квантованиями.