Выпуск llama.cpp b9827 добавляет оптимизацию асинхронного копирования 2D в CUDA
Выпуск llama.cpp b9827 вводит оптимизацию производительности для CUDA, добавляя быстрый путь cudaMemcpy2DAsync в функцию ggml_cuda_cpy. Это изменение ускоряет копирование с шагом одинакового типа и формы, где тензоры не являются полностью непрерывными, но каждый ряд является непрерывным, заменяя более медленные ядра поэлементного скалярного копирования.