Todos los artículos
github llama.cpp · hace 20 h

llama.cpp b9788 añade paralelismo de tensores con SYCL para configuraciones de doble GPU

La versión b9788 de llama.cpp introduce soporte para el paralelismo de tensores mediante la bandera --split-mode tensor en el backend SYCL. Esta implementación permite la comunicación entre dos GPUs añadiendo las funciones comm_init, comm_free y comm_allreduce_tensor al meta-backend. Para dos dispositivos, utiliza una estrategia de all-reduce en anillo que alterna entre memcpy directo en FP32 para tensores pequeños y compresión BF16 para los más grandes. El código evita OneCCL debido a su limitación de un solo dispositivo por proceso, utilizando en su lugar búferes persistentes para mantener las invariantes del pool SYCL. Las pruebas de rendimiento en dos GPUs Intel Arc Pro B70 muestran aceleraciones significativas frente al modo de capa para los modelos Llama-3.3-70B y Qwen3-Coder-Next-80B-A3B. La actualización incluye nuevos binarios para macOS, Linux, Windows, Android y openEuler en objetivos de CPU, CUDA, ROCm, Vulkan y SYCL.

github llama.cpp · hace 20 h

La versión b9789 de llama.cpp corrige la cuantización de MoE y proporciona binarios multiplataforma

El proyecto llama.cpp ha lanzado la versión b9789, que incluye una corrección crítica para la cuantización de modelos Mixture of Experts (MoE) con predicción multitoken. Esta actualización aborda problemas identificados en la solicitud de extracción #24986 para garantizar el manejo adecuado de estas arquitecturas de modelo específicas. El lanzamiento proporciona binarios precompilados para macOS Apple Silicon e Intel, así como un XCFramework para iOS. Los usuarios de Linux pueden descargar compilaciones para Ubuntu a través de los backends CPU, Vulkan, ROCm 7.2, OpenVINO y SYCL. El soporte para Windows incluye variantes de CPU, CUDA 12.4 y 13.3, Vulkan, OpenVINO, SYCL e HIP. También se admiten plataformas adicionales como Android arm64 y openEuler con configuraciones de hardware específicas.

github llama.cpp · hace 20 h

Corregir casos de prueba unitarios fallidos para conv_3d en SYCL

El repositorio llama.cpp ha abordado un problema específico relacionado con el backend SYCL. Se ha presentado una solicitud de extracción (pull request) para corregir los casos de prueba unitarios fallidos asociados con la operación conv_3d. Esta actualización se dirige al proyecto ggml-org/llama.cpp en GitHub. Los cambios resuelven errores que anteriormente impedían la ejecución exitosa de estas pruebas. Esta corrección garantiza una mayor estabilidad para los usuarios que dependen de la aceleración de hardware basada en SYCL.

github llama.cpp · hace 20 h

La versión b9786 de llama.cpp añade soporte para filas no contiguas en OpenCL

El proyecto llama.cpp ha lanzado la versión b9786, introduciendo soporte para filas no contiguas en la normalización mediante OpenCL. Esta actualización forma parte del desarrollo continuo del equipo ggml-org para mejorar la compatibilidad con hardware y el rendimiento en diversas plataformas. El lanzamiento proporciona binarios para macOS Apple Silicon, Macs Intel e iOS XCFrameworks. Los usuarios de Linux pueden acceder a compilaciones para las arquitecturas Ubuntu x64, arm64 y s390x utilizando backends de CPU, Vulkan, ROCm 7.2, OpenVINO y SYCL. El soporte para Android está disponible para dispositivos con CPU arm64, mientras que Windows ofrece amplias opciones que incluyen CPU, CUDA 12 y 13, Vulkan, OpenVINO, SYCL e HIP. El lanzamiento también enumera compilaciones desactivadas para KleidiAI en plataformas macOS y openEuler.

github llama.cpp · hace 20 h

Lanzamiento de llama.cpp b9785 con verificación endurecida de mayúsculas y binarios multiplataforma

El proyecto llama.cpp ha lanzado la versión b9785, que incluye un cambio en el código para endurecer las comprobaciones de mayúsculas, según se detalla en la solicitud de extracción #24973. Esta actualización proporciona binarios precompilados para macOS Apple Silicon, Macs con Intel e iOS a través de un XCFramework, con el soporte de KleidiAI desactivado en Apple Silicon. Se admiten distribuciones de Linux, incluidas Ubuntu, para los backends de CPU, Vulkan, ROCm 7.2, OpenVINO y SYCL en las arquitecturas x64, arm64 y s390x. Los usuarios de Android pueden acceder a binarios de CPU arm64, mientras que Windows ofrece amplias opciones que cubren CPU, OpenCL Adreno, CUDA 12 y 13, Vulkan, OpenVINO, SYCL e HIP. El lanzamiento también incluye compilaciones para openEuler dirigidas a procesadores x86 y aarch64 con soporte de ACL Graph. Hay disponible un paquete de interfaz de usuario independiente junto con las versiones específicas de la plataforma para facilitar la inferencia de modelos locales.

github llama.cpp · hace 20 h

vulkan-shaders-gen ahora falla la compilación en errores de compilación de shaders

La herramienta vulkan-shaders-gen ahora detecta y falla la compilación cuando la compilación de shaders falla, evitando la creación de una libggml-vulkan defectuosa. Esta corrección aborda un problema previo donde el éxito de la compilación enmascaraba fallos en tiempo de ejecución, e incluye mejoras en el manejo de errores y la gestión de banderas atómicas entre plataformas.

github OpenAI Agents SDK · hace 20 h

Lanzamiento de openai-agents-python v0.17.7

La versión 0.17.7 de la biblioteca openai-agents-python incluye nuevas características como el tamaño máximo configurable de WebSocket y el streaming de llamadas a herramientas de Chat Completions con búfer. También contiene múltiples correcciones para problemas que incluyen el buffering del sandbox, el manejo de errores y el despacho de herramientas, junto con actualizaciones de documentación y un mejor mensaje de error.