Бенчмарк сравнивает форки llama.cpp (ik_llama и spiritbuun), работающие с моделью Qwen3.6-35B-A3B APEX в режимах I-Compact и I-Quality. ik_llama с I-Compact достигает максимальной скорости (~146 TPS), в то время как spiritbuun с I-Quality и кэшем turbo8/turbo4 достигает такой же скорости и обеспечивает немного лучшие показатели по HellaSwag. Кэши turbo8/turbo4 превосходят q8_0/q5_0, особенно при длинных контекстах, обеспечивая до 15% роста скорости и меньшую величину KLD, что делает их превосходными для качества и длины контекста.
Qwen3.6-35B-A3B APEX на RTX 3090: сравнительные показатели скорости и качества
Переведено с English → Русский