Optimización de la inferencia de LLM local: La guía completa

Una guía exhaustiva sobre la optimización de la inferencia de LLM local abarca la gestión de VRAM, el caché KV, la colocación de MoE, MTP, la optimización de CPU y los problemas comunes de falta de memoria. La guía está disponible en https://carteakey.dev/blog/local-inference/local-llm-optimization/ e incluye solicitudes de comentarios del autor.