Модель спекулятивного декодирования Eagle3 теперь доступна в последней версии llama.cpp через --spec-type draft-eagle3. Её необходимо использовать вместе с драфтовым моделью, например, Ex0bit-Qwen3.6-27B-PRISM-EAGLE3-GGUF, и включать с помощью -md или --model-draft. Производительность сравнима с draft-mtp, хотя поддержка тензорной параллелизма отсутствует и использование VRAM выше.