Пользователь сообщил, что удаление переменной окружения GGML_CUDA_ALLREDUCE привело к заметному улучшению пропускной способности (TPS) для MTP в локальной инференсе больших языковых моделей. Изменение, ранее считавшееся полезным, неожиданно снизило перегрузку и улучшило производительность, особенно после длительных испытаний конфигурации.
Наконец-то видим выгоды MTP после удаления GGML_CUDA_ALLREDUCE
Переведено с English → Русский