Hice un fork de ik_llama.cpp y añadí el modo espejo --numa
Un nuevo fork de ik_llama.cpp añade un modo espejo --numa que duplica los pesos del modelo y la caché KV entre los sockets de CPU, permitiendo una utilización completa de los sistemas multi-socket. Esto reduce las penalizaciones por acceso a memoria remota y mejora el throughput de inferencia hasta 1.6x en los modelos probados, aunque requiere el doble de RAM.