Обновление Ornith-1.0-35B GGUF: нативный MTP для спекулятивного декодирования + полная поддержка обслуживания/TTFT/длинного контекста (llama.cpp, tp=1)
В этой статье сообщается об обновлении модели Ornith-1.0-35B, включающем нативную голову черновика MTP, привитую к корпусу IQ4_XS для самоспекулятивного декодирования в llama.cpp. Автор предоставляет комплексные метрики производительности, включая пропускную способность, время до первого токена (TTFT) и возможности работы с длинным контекстом на одном GPU RTX PRO 6000 Blackwell.