Una guía exhaustiva sobre la optimización de la inferencia de LLM local abarca la gestión de VRAM, el caché KV, la colocación de MoE, MTP, la optimización de CPU y los problemas comunes de falta de memoria. La guía está disponible en https://carteakey.dev/blog/local-inference/local-llm-optimization/ e incluye solicitudes de comentarios del autor.