Inference efficiency — korshunov.ai

Inference efficiency Página 1 / 2

llama.cpp Release b9731: Optimización de rendimiento y binarios multiplataforma

La versión b9731 de llama.cpp introduce una optimización que utiliza std::partial_sort para reducir la sobrecarga del ordenamiento de tokens, mejorando el rendimiento de 8.555ms a 0.704ms para la selección de top-n tokens. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware.

github llama.cpp · ahora mismo En vivo

LLaMA.cpp lanza b9729: nuevos binarios y soporte de plataformas

LLaMA.cpp publica la versión b9729 con binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas. La publicación incluye soporte para CPU, Vulkan, OpenVINO, SYCL y ROCm, junto con un nuevo paquete de interfaz de usuario. Se han eliminado las referencias internas a 'webui'.

github llama.cpp · ahora mismo En vivo

LLaMA.cpp Release b9728 Adds Comment Line Support and Multiple Platform Binaries

La versión b9728 de LLaMA.cpp introduce soporte para líneas de comentario en la configuración --api-key-file. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler a través de múltiples arquitecturas y opciones de aceleración por hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.

github llama.cpp · ahora mismo En vivo

llama.cpp versión b9718: selección de ranura consolidada y nuevos binarios

La versión b9718 de llama.cpp consolida la selección de ranuras en una única función, get_available_slot, mientras mantiene las comprobaciones de similitud LCP para las actualizaciones de la caché de prompts. El lanzamiento incluye compilaciones binarias para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware.

github llama.cpp · ahora mismo En vivo

llama.cpp lanza la versión b9721 disponible para múltiples plataformas

llama.cpp ha lanzado la versión b9721, ofreciendo binarios para macOS, Linux, Android, Windows y openEuler en varias arquitecturas. La versión incluye soporte para CPU, Vulkan, ROCm, OpenVINO, SYCL e HIP, junto con un paquete de interfaz de usuario dedicado. Una función para Apple Silicon con KleidiAI está actualmente desactivada.

github llama.cpp · ahora mismo En vivo

LLaMA.cpp Release b9715 Adds CUDA Col2Im 1D and Multiple Platform Binaries

La versión b9715 de LLaMA.cpp introduce soporte para CUDA en GGML_OP_COL2IM_1D, basándose en una implementación para CPU. La versión incluye binarios para macOS, Linux, Android, Windows y openEuler a través de múltiples arquitecturas y marcos de aceleración, incluyendo Vulkan, ROCm, OpenVINO y SYCL.

github llama.cpp · ahora mismo En vivo

llama.cpp Release b9703: Actualizaciones y descargas de binarios

La versión b9703 de llama.cpp incluye una reestructuración del manejo de presets del servidor, eliminando el soporte para presets remotos de HF y funciones obsoletas. El lanzamiento proporciona binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.

github llama.cpp · ahora mismo En vivo

llama.cpp libera b9704: corrige el manejo de gramática inválida y añade nuevos binarios

La versión b9704 de llama.cpp ahora devuelve HTTP 400 para gramática inválida en lugar de descartar silenciosamente las restricciones. El lanzamiento incluye binarios para macOS, Linux, Android, Windows y openEuler a través de múltiples arquitecturas y aceleradores de hardware, con soporte para Vulkan, ROCm, OpenVINO, SYCL y CUDA.

github llama.cpp · ahora mismo En vivo

LLaMA.cpp Release b9698 Adds Self-Update Support and Multiple Platform Binaries

La versión b9698 de LLaMA.cpp habilita las actualizaciones automáticas únicamente cuando se compila con llama-install.sh. La versión incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración de hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.

github llama.cpp · ahora mismo En vivo

ggml-cpu: Habilitar condicionalmente el backend POWER11 según el soporte del compilador

El proyecto ggml-cpu ahora habilita condicionalmente el backend POWER11 en ggml según el soporte del compilador para -mcpu=power11. Esto previene fallos de compilación en las toolchains actuales de GCC/Clang mientras mantiene la compatibilidad hacia adelante. Las actualizaciones a CMakeLists.txt apoyan este cambio, y se utiliza -mcpu=power10 tanto para las arquitecturas P10 como P11.

github llama.cpp · ahora mismo En vivo

llama.cpp Release b9692 Añade Nuevos Binarios y Correcciones

llama.cpp versión b9692 introduce nuevos binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas. La liberación incluye actualizaciones para soportar Vulkan, ROCm, OpenVINO, SYCL e HIP, con correcciones para eliminar el uso de la dimensión de lote en llava_uhd.

github llama.cpp · ahora mismo En vivo

El backend Metal añade soporte para f16 y bf16 al operador de concatenación

El backend Metal en llama.cpp se ha ampliado para admitir los tipos de tensor f16 y bf16 para el operador de concatenación, además del soporte existente para f32 e i32. Esta actualización incluye plantillas de kernel especializadas, obtenedores de canalización actualizados y un despacho de kernel basado en tipos mejorado, con la asistencia de pi:llama.cpp/Qwen3.6-27B.

github llama.cpp · hace 1 h En vivo

llama.cpp lanza la versión b9688 con nuevas APIs y binarios multiplataforma

llama.cpp lanza la versión b9688, añadiendo APIs de gestión de modelos y actualizaciones en tiempo real mediante SSE. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler, compatibles con diversas arquitecturas y marcos de aceleración como Vulkan, CUDA, OpenVINO y SYCL.

github llama.cpp · hace 1 h En vivo

LLaMA.cpp Release b9685 Adds SYCL Dev2Dev Memcpy and Multiple Platform Binaries

La versión b9685 de LLaMA.cpp introduce la funcionalidad memcpy dev2dev basada en SYCL, moviendo GGML_SYCL_DEV2DEV_MEMCPY a una tabla en tiempo de ejecución y mejorando la detección de comunicación entre pares. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y APIs incluyendo Vulkan, ROCm, OpenVINO y SYCL (FP32/FP16).

github llama.cpp · hace 1 h En vivo

La versión b9684 de LLaMA.cpp añade conv_3d y binarios para múltiples plataformas

La versión b9684 de LLaMA.cpp introduce una nueva operación de convolución 3D (conv_3d) e incluye implementaciones optimizadas. La versión proporciona binarios precompilados para macOS, Linux, Android, Windows y openEuler en varias arquitecturas y opciones de aceleración de hardware, incluyendo SYCL, Vulkan, CUDA y OpenVINO.

github llama.cpp · hace 1 h En vivo

llama.cpp release b9682 añade soporte para Vulkan y nuevos binarios de plataforma

La versión b9682 de llama.cpp introduce soporte para Vulkan en Linux y Windows, habilitando la aceleración por GPU. El lanzamiento incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas, con opciones de CPU y GPU que incluyen CUDA, OpenVINO, SYCL y ROCm.

github llama.cpp · hace 1 h En vivo

llama.cpp release b9675 añade soporte para FP16 y nuevos binarios de plataforma

la versión b9675 de llama.cpp habilita el soporte para FP16 en operaciones como SQR, SQRT, LOG, SIN, COS y CLAMP. El lanzamiento incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas, con soporte para Vulkan, ROCm, OpenVINO, SYCL (FP16 y FP32), y CUDA 12.4 y 13.3.

github llama.cpp · hace 1 h En vivo

llama.cpp libera b9680: nuevos binarios y soporte para Vulkan

llama.cpp lanza la versión b9680 con soporte actualizado para Vulkan y nuevos binarios para macOS, Linux, Android, Windows y openEuler. La liberación incluye variantes de CPU y GPU para múltiples arquitecturas, con soporte para Vulkan, CUDA, OpenVINO, SYCL y ROCm.

github llama.cpp · hace 1 h En vivo

llama.cpp Release b9670: Correcciones y nuevas compilaciones

La versión b9670 de llama.cpp incluye correcciones para casos límite de NVFP4 en llama-graph, como el movimiento de operaciones MUL post-GEMM y la restricción de build_ffn a combinaciones admitidas. La versión proporciona binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de backend, incluyendo CUDA, Vulkan, SYCL y OpenVINO.

github llama.cpp · hace 1 h En vivo

llama.cpp lanza b96669 con muestreo de backend para Eagle3

la versión b9669 de llama.cpp añade soporte de muestreo de backend para Eagle3. El lanzamiento incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración de hardware, incluyendo Vulkan, CUDA, ROCm, OpenVINO y SYCL.