Ornith 35B работает достаточно хорошо с Qwen3.6 35B DFlash в режиме спекулятивного моделирования

Пользователь сообщает о повышении скорости генерации токенов на 30-40% за счёт использования модели Ornith-1.0-35B в качестве черновой модели вместе с Qwen3.6-35B-A3B-DFlash через llama-server.

Конфигурация использует Ornith-1.0-35B-GGUF (Q8_0) в качестве спекулятивной черновой модели через флаг `--spec-type draft-dflash`.
Тестирование на контексте из 50k токенов, состоящем из смешанного кода JavaScript и текста Wikipedia, показало уровень принятия токенов 80%.
Настройка включает запуск llama-server с определёнными параметрами для длины контекста, температуры и количества шагов черновой модели.

Хотя эта комбинация повышает скорость генерации, она приводит к значительному замедлению времени обработки промпта, что означает её непригодность в качестве универсального решения.