Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 17

github llama.cpp · hace 20 h

llama.cpp b9788 añade paralelismo de tensores con SYCL para configuraciones de doble GPU

La versión b9788 de llama.cpp introduce soporte para el paralelismo de tensores mediante la bandera --split-mode tensor en el backend SYCL. Esta implementación permite la comunicación entre dos GPUs añadiendo las funciones comm_init, comm_free y comm_allreduce_tensor al meta-backend. Para dos dispositivos, utiliza una estrategia de all-reduce en anillo que alterna entre memcpy directo en FP32 para tensores pequeños y compresión BF16 para los más grandes. El código evita OneCCL debido a su limitación de un solo dispositivo por proceso, utilizando en su lugar búferes persistentes para mantener las invariantes del pool SYCL. Las pruebas de rendimiento en dos GPUs Intel Arc Pro B70 muestran aceleraciones significativas frente al modo de capa para los modelos Llama-3.3-70B y Qwen3-Coder-Next-80B-A3B. La actualización incluye nuevos binarios para macOS, Linux, Windows, Android y openEuler en objetivos de CPU, CUDA, ROCm, Vulkan y SYCL.

github llama.cpp · hace 20 h

La versión b9789 de llama.cpp corrige la cuantización de MoE y proporciona binarios multiplataforma

El proyecto llama.cpp ha lanzado la versión b9789, que incluye una corrección crítica para la cuantización de modelos Mixture of Experts (MoE) con predicción multitoken. Esta actualización aborda problemas identificados en la solicitud de extracción #24986 para garantizar el manejo adecuado de estas arquitecturas de modelo específicas. El lanzamiento proporciona binarios precompilados para macOS Apple Silicon e Intel, así como un XCFramework para iOS. Los usuarios de Linux pueden descargar compilaciones para Ubuntu a través de los backends CPU, Vulkan, ROCm 7.2, OpenVINO y SYCL. El soporte para Windows incluye variantes de CPU, CUDA 12.4 y 13.3, Vulkan, OpenVINO, SYCL e HIP. También se admiten plataformas adicionales como Android arm64 y openEuler con configuraciones de hardware específicas.

github llama.cpp · hace 20 h

Corregir casos de prueba unitarios fallidos para conv_3d en SYCL

El repositorio llama.cpp ha abordado un problema específico relacionado con el backend SYCL. Se ha presentado una solicitud de extracción (pull request) para corregir los casos de prueba unitarios fallidos asociados con la operación conv_3d. Esta actualización se dirige al proyecto ggml-org/llama.cpp en GitHub. Los cambios resuelven errores que anteriormente impedían la ejecución exitosa de estas pruebas. Esta corrección garantiza una mayor estabilidad para los usuarios que dependen de la aceleración de hardware basada en SYCL.

github llama.cpp · hace 20 h

La versión b9786 de llama.cpp añade soporte para filas no contiguas en OpenCL

El proyecto llama.cpp ha lanzado la versión b9786, introduciendo soporte para filas no contiguas en la normalización mediante OpenCL. Esta actualización forma parte del desarrollo continuo del equipo ggml-org para mejorar la compatibilidad con hardware y el rendimiento en diversas plataformas. El lanzamiento proporciona binarios para macOS Apple Silicon, Macs Intel e iOS XCFrameworks. Los usuarios de Linux pueden acceder a compilaciones para las arquitecturas Ubuntu x64, arm64 y s390x utilizando backends de CPU, Vulkan, ROCm 7.2, OpenVINO y SYCL. El soporte para Android está disponible para dispositivos con CPU arm64, mientras que Windows ofrece amplias opciones que incluyen CPU, CUDA 12 y 13, Vulkan, OpenVINO, SYCL e HIP. El lanzamiento también enumera compilaciones desactivadas para KleidiAI en plataformas macOS y openEuler.

github llama.cpp · hace 20 h

Lanzamiento de llama.cpp b9785 con verificación endurecida de mayúsculas y binarios multiplataforma

El proyecto llama.cpp ha lanzado la versión b9785, que incluye un cambio en el código para endurecer las comprobaciones de mayúsculas, según se detalla en la solicitud de extracción #24973. Esta actualización proporciona binarios precompilados para macOS Apple Silicon, Macs con Intel e iOS a través de un XCFramework, con el soporte de KleidiAI desactivado en Apple Silicon. Se admiten distribuciones de Linux, incluidas Ubuntu, para los backends de CPU, Vulkan, ROCm 7.2, OpenVINO y SYCL en las arquitecturas x64, arm64 y s390x. Los usuarios de Android pueden acceder a binarios de CPU arm64, mientras que Windows ofrece amplias opciones que cubren CPU, OpenCL Adreno, CUDA 12 y 13, Vulkan, OpenVINO, SYCL e HIP. El lanzamiento también incluye compilaciones para openEuler dirigidas a procesadores x86 y aarch64 con soporte de ACL Graph. Hay disponible un paquete de interfaz de usuario independiente junto con las versiones específicas de la plataforma para facilitar la inferencia de modelos locales.

github llama.cpp · hace 20 h

LLaMA.cpp lanza b9784: optimizaciones MM para Hexagon y binarios multiplataforma

LLaMA.cpp publica la versión b9784 con importantes optimizaciones para operaciones MM basadas en Hexagon, incluyendo reempaquetado de pesos con bloques 32x32, manejo mejorado de dyn.quant y gestión unificada de parámetros del kernel. El lanzamiento incluye nuevos binarios para macOS (arm64 y x64), iOS y múltiples arquitecturas de Linux con soporte para Vulkan, ROCm y OpenVINO.

github llama.cpp · hace 20 h

llama.cpp lanza b9782 con nuevos binarios y soporte

llama.cpp lanza la versión b9782, que incluye binarios para macOS, Linux, Android, Windows y openEuler. La actualización añade soporte para Vulkan, OpenVINO, SYCL, ROCm y CUDA en múltiples arquitecturas, con una interfaz de usuario actualizada y funciones desactivadas como KleidiAI y el soporte para openEuler.

github llama.cpp · hace 20 h

llama.cpp lanza b9781 con soporte para Vulkan y multiplataforma

llama.cpp lanza la versión b9781, añadiendo soporte para Vulkan en Linux y Windows, y expandiéndose a múltiples arquitecturas que incluyen ARM64 y x64 en macOS, Linux, Android y Windows. El lanzamiento incluye compilaciones para CPU, CUDA, OpenVINO, SYCL y ROCm, con un componente de interfaz de usuario disponible.

github llama.cpp · hace 20 h

vulkan-shaders-gen ahora falla la compilación en errores de compilación de shaders

La herramienta vulkan-shaders-gen ahora detecta y falla la compilación cuando la compilación de shaders falla, evitando la creación de una libggml-vulkan defectuosa. Esta corrección aborda un problema previo donde el éxito de la compilación enmascaraba fallos en tiempo de ejecución, e incluye mejoras en el manejo de errores y la gestión de banderas atómicas entre plataformas.

github llama.cpp · hace 20 h

La versión b9777 de LLaMA.cpp añade nuevos modelos y binarios multiplataforma

La versión b9777 de LLaMA.cpp añade los modelos LFM2.5-ColBERT-350M y LFM2.5-Embedding-350M. La versión incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler, compatibles con diversas arquitecturas y tecnologías de aceleración como CUDA, Vulkan, OpenVINO y SYCL.

github OpenAI Agents SDK · hace 20 h

Lanzamiento de openai-agents-python v0.17.7

La versión 0.17.7 de la biblioteca openai-agents-python incluye nuevas características como el tamaño máximo configurable de WebSocket y el streaming de llamadas a herramientas de Chat Completions con búfer. También contiene múltiples correcciones para problemas que incluyen el buffering del sandbox, el manejo de errores y el despacho de herramientas, junto con actualizaciones de documentación y un mejor mensaje de error.

github llama.cpp · hace 20 h

llama.cpp release b9776 añade soporte para Vulkan y múltiples hardware

La versión llama.cpp b9776 introduce soporte para Vulkan en Linux y Windows, junto con variantes de CPU, OpenCL, CUDA y SYCL en macOS, Linux, Android y Windows. La liberación también incluye soporte para OpenVINO y ROCm, con una interfaz de usuario disponible en un paquete independiente.

github llama.cpp · hace 20 h

Actualizaciones del backend de Vulkan y nuevos lanzamientos binarios para llama.cpp

La versión b9774 de llama.cpp añade soporte para el backend de Vulkan en las operaciones SQR, SQRT, SIN, COS, CLAMP, LEAKY_RELU y NORM, con compatibilidad para entradas no contiguas. El lanzamiento incluye compilaciones binarias para macOS, Linux, Android, Windows y openEuler a través de múltiples arquitecturas y backends, incluyendo CUDA, OpenVINO, SYCL y ROCm.

github llama.cpp · hace 20 h

LLaMA.cpp lanza b9775: nuevos binarios y soporte para múltiples plataformas

LLaMA.cpp ha lanzado la versión b9775, introduciendo binarios para macOS, Linux, Android, Windows y openEuler en varias arquitecturas. La publicación incluye soporte para CPU, Vulkan, OpenVINO, SYCL y ROCm, con versiones actualizadas de CUDA (12.4 y 13.3) y disponibilidad del XCFramework para iOS. También se proporciona un paquete de interfaz de usuario.

github llama.cpp · hace 20 h

llama.cpp Release b9773 Añade Soporte para Vulkan y Nuevas Compilaciones

La versión b9773 de llama.cpp introduce soporte para Vulkan en GET_ROWS_BACK y proporciona compilaciones binarias para macOS, Linux, Android, Windows y openEuler. Las nuevas versiones incluyen opciones de CPU, Vulkan, ROCm, OpenVINO y SYCL en múltiples arquitecturas, con un paquete de interfaz de usuario dedicado.

github llama.cpp · hace 20 h

La versión b9771 de LLaMA.cpp añade soporte para Vulkan y optimizaciones

La versión b9771 de LLaMA.cpp introduce soporte para Vulkan en Linux y Windows, reduciendo las variantes de shaders y el tamaño del binario al convertir mul_mm ALIGNED en una constante de especificación. La versión incluye binarios para macOS, Linux, Android, Windows y openEuler, con variantes para CPU, Vulkan, OpenVINO, SYCL y ROCm.

github llama.cpp · hace 20 h

Llama.cpp lanza b9770: Correcciones en el manejo de presets remotos y adición de pruebas

La versión b9770 de llama.cpp corrige el manejo de presets remotos y añade una prueba para ello. La publicación incluye binarios para macOS, Linux, Android, Windows y openEuler, compatibles con diversas arquitecturas y aceleradores de hardware como Vulkan, CUDA, OpenVINO y SYCL.

github llama.cpp · hace 20 h

Se ha añadido soporte de conversión para Granite Speech Plus

El proyecto llama.cpp ha añadido soporte de conversión para Granite Speech Plus, ampliando su capacidad para manejar concatenación multicapa. Esta actualización está disponible en múltiples plataformas, incluyendo macOS, Linux, Android, Windows y openEuler, con soporte para varios aceleradores de hardware y modelos de IA.

github llama.cpp · hace 20 h

Corrección para la verificación de resultados de Vulkan y el enlace de pruebas en llama.cpp

llama.cpp ahora enlaza ggml-cpu cuando GGML_VULKAN_CHECK_RESULTS o GGML_VULKAN_RUN_TESTS están habilitados para resolver fallos de enlace. Esta corrección restaura la funcionalidad de depuración para la verificación y las pruebas de resultados de Vulkan después de que se dividiera la biblioteca ggml-cpu.

github llama.cpp · hace 20 h

la versión b9767 de llama.cpp añade soporte para GPU y multiplataforma

La versión b9767 de llama.cpp mejora la inferencia MTP utilizando rutas mat-vec para lotes pequeños e incluye soporte actualizado para GPU. La versión proporciona binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y APIs, incluyendo Vulkan, CUDA, OpenVINO y SYCL.