Новый форк ik_llama.cpp добавляет режим --numa mirror, который копирует веса модели и кэш KV между разъемами процессора, обеспечивая полное использование систем с несколькими разъемами. Это снижает штрафы за доступ к удаленной памяти и повышает пропускную способность инференса до 1,6 раза на проверенных моделях, хотя требует вдвое больше ОЗУ.
Я forkнул ik_llama.cpp и добавил режим --numa mirror
Переведено с English → Русский