Interfaz web precompilada de Docker para s390x
Se ha enviado una solicitud de extracción para agregar una interfaz web precompilada para la arquitectura s390x en Docker. El cambio está actualmente pendiente de lanzamiento y aún no se ha publicado.
Se ha enviado una solicitud de extracción para agregar una interfaz web precompilada para la arquitectura s390x en Docker. El cambio está actualmente pendiente de lanzamiento y aún no se ha publicado.
LLaMA.cpp publica la versión b9732 con binarios actualizados para macOS, Linux, Android, Windows y openEuler. La publicación incluye comunicación refactorizada entre hijo y enrutador, correcciones al manejo de despertar, mejoras en update_status() y documentación.
El proyecto ggml-webgpu ha añadido interruptores de adaptador para el soporte de precisión media (F16) en GPUs Vulkan y NVIDIA. Esta actualización permite un mejor rendimiento en hardware compatible a través de múltiples plataformas, incluyendo macOS, Linux, Android, Windows y openEuler, con compilaciones específicas disponibles para las arquitecturas ARM y x64.
La versión b9730 de llama.cpp incluye correcciones para el manejo de UTF-8 en Windows y mejoras en ggml_fopen y la CLI. El lanzamiento proporciona binarios para macOS, Linux, Android, Windows y openEuler a través de múltiples arquitecturas y opciones de aceleración de hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.
La versión b9731 de llama.cpp introduce una optimización que utiliza std::partial_sort para reducir la sobrecarga del ordenamiento de tokens, mejorando el rendimiento de 8.555ms a 0.704ms para la selección de top-n tokens. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware.
LLaMA.cpp publica la versión b9729 con binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas. La publicación incluye soporte para CPU, Vulkan, OpenVINO, SYCL y ROCm, junto con un nuevo paquete de interfaz de usuario. Se han eliminado las referencias internas a 'webui'.
La versión b9728 de LLaMA.cpp introduce soporte para líneas de comentario en la configuración --api-key-file. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler a través de múltiples arquitecturas y opciones de aceleración por hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.
La versión b9726 de llama.cpp introduce un nuevo argumento --agent y elimina la compatibilidad redundante con la nomenclatura de webui. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware.
La versión b9727 de llama.cpp actualiza cpp-httplib a la versión 0.48.0. El lanzamiento incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración de hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.
El proyecto Docker ha añadido soporte para compilar el componente de la interfaz de usuario. Esta actualización también incluye el uso de APP_VERSION existente en la configuración del contenedor.
La versión b9724 de llama.cpp incluye varias correcciones de errores y mejoras, como arreglos en la compilación, evitación de desbordamientos en la función area() y una comprobación de integridad en get_u32().
La versión b9723 de llama.cpp introduce soporte para los modelos Qwen3.5 y Qwen3.6 a través de Eagle3. La liberación incluye restauración diferida de puntos de control de frontera para modelos híbridos y actualizaciones en las convenciones de API y nomenclatura. Las compilaciones binarias están disponibles para las plataformas macOS, Linux, Android, Windows y openEuler, con opciones para CPU, Vulkan, OpenVINO, SYCL y ROCm.
La versión b9722 de LLaMA.cpp corrige un problema con el valor n_discard no validado en el manejo del contexto del servidor. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler, compatibles con diversas arquitecturas y marcos de aceleración como Vulkan, CUDA, OpenVINO y SYCL.
La versión b9718 de llama.cpp consolida la selección de ranuras en una única función, get_available_slot, mientras mantiene las comprobaciones de similitud LCP para las actualizaciones de la caché de prompts. El lanzamiento incluye compilaciones binarias para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware.
llama.cpp ha lanzado la versión b9721, ofreciendo binarios para macOS, Linux, Android, Windows y openEuler en varias arquitecturas. La versión incluye soporte para CPU, Vulkan, ROCm, OpenVINO, SYCL e HIP, junto con un paquete de interfaz de usuario dedicado. Una función para Apple Silicon con KleidiAI está actualmente desactivada.
ggml-cpu ahora admite colas K en la multiplicación matricial MMA Q8/Q4 de Power10, eliminando el requisito de que K sea divisible por kc. Esto permite que más cargas de trabajo utilicen el núcleo MMA y reduce la dependencia de mnpack.
La versión v0.17.6 añade guardrails de entrada para herramientas preaprobadas y datos personalizados solo para SDK en las salidas de herramientas. También aplica un contrato estricto compatible con JSON para las salidas de herramientas y suprime las advertencias innecesarias sobre espacios en blanco en los nombres de las herramientas. @siddiksawani realizó su primera contribución en esta versión.
La versión b9716 de llama.cpp introduce soporte para procesamiento por lotes (batching) en InternVL, mejorando el rendimiento del modelo mediante un procesamiento eficiente por lotes. La versión incluye compilaciones binarias para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración de hardware, incluyendo Vulkan, OpenVINO, SYCL y ROCm.
llama.cpp ha lanzado la versión b9713, añadiendo soporte de agrupamiento a mtmd-cli y pruebas de video. El lanzamiento incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.
llama.cpp versión b9714 añade el encabezado "X-Accel-Buffering": "no" a los puntos de conexión de transmisión para evitar que Nginx almacene en búfer las respuestas, lo que resuelve problemas de transmisión con aplicaciones como el entorno de codificación Pi. El lanzamiento incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware.