La liberación llama.cpp b9820 introduce mejoras de rendimiento reintroduciendo menos sincronicizaciones durante el cómputo dividido, dirigidas específicamente a los backends de CUDA. Esta actualización también proporciona binarios precompilados para macOS, Linux, Windows, Android y openEuler en CPU, GPU y aceleradores de hardware especializados.

  • Mejora el rendimiento de CUDA mediante la reducción de sincronicizaciones entre tokens.
  • Añade capacidad de copia de CPU a CUDA a ggml_backend_cuda_cpy_tensor_async().
  • Relaja los requisitos de sincronización entre copias de entrada en backends compatibles como CUDA.
  • Intercambia la copia síncrona con una función de copia asíncrona y añade protecciones macro para compilaciones no-CUDA.
  • Reestructura la detección de backend en ggml-backend.cpp para evitar conflictos de enlace.
  • Corrige errores de paralelismo de pipeline del backend hip añadiendo sincronicizaciones de GPU única en configuraciones multi-GPU.
  • Excluye hip/MUSA de la optimización de división de CPU a GPU en la copia desde el host como medida precautoria.

La liberación permite una inferencia más rápida en dispositivos CUDA mediante operaciones asíncronas optimizadas mientras mantiene la compatibilidad en una amplia gama de sistemas operativos y backends de hardware.