Пользователь сообщил, что удаление переменной окружения GGML_CUDA_ALLREDUCE привело к заметному улучшению пропускной способности (TPS) для MTP в локальной инференсе больших языковых моделей. Изменение, ранее считавшееся полезным, неожиданно снизило перегрузку и улучшило производительность, особенно после длительных испытаний конфигурации.