Un usuario reportó que eliminar la variable de entorno GGML_CUDA_ALLREDUCE llevó a una mejora notable en el throughput (TPS) para MTP en inferencia de LLM local. El cambio, que previamente se consideraba beneficioso, redujo inesperadamente la sobrecarga y mejoró el rendimiento, especialmente después de extensos ensayos de configuración.
Finalmente viendo beneficios de MTP después de eliminar GGML_CUDA_ALLREDUCE
Traducido del English → Español