Un usuario reportó que eliminar la variable de entorno GGML_CUDA_ALLREDUCE llevó a una mejora notable en el throughput (TPS) para MTP en inferencia de LLM local. El cambio, que previamente se consideraba beneficioso, redujo inesperadamente la sobrecarga y mejoró el rendimiento, especialmente después de extensos ensayos de configuración.