llama.cpp — korshunov.ai — новости ML

Источник · llama.cpp

ggml оптимизирует AMX с помощью плоской обработки разделов

Проект ggml повысил производительность AMX за счёт плоской обработки разделов по n_batch * M, обеспечивая участие всех потоков в квантовании. Данное изменение обеспечивает ускорение на 1,47 раза при различных моделях и конфигурациях аппаратуры на платформах CPU и GPU, при этом результаты демонстрируют стабильное сокращение времени инференса.

github llama.cpp · 2 ч назад

Выпуск llama.cpp b9785 с усиленной проверкой флагов и бинарными файлами для нескольких платформ

Проект llama.cpp выпустил версию b9785, включающую изменение кода для усиления проверки флагов, как подробно описано в pull request #24973. Это обновление предоставляет предварительно собранные бинарные файлы для macOS Apple Silicon, Mac на базе Intel и iOS через XCFramework, при этом поддержка KleidiAI отключена на Apple Silicon. Поддерживаются дистрибутивы Linux, включая Ubuntu, для CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL-бэкендов на архитектурах x64, arm64 и s390x. Пользователи Android могут получить доступ к бинарным файлам CPU для arm64, а Windows предлагает широкий выбор вариантов: CPU, OpenCL Adreno, CUDA 12 и 13, Vulkan, OpenVINO, SYCL и HIP. В релиз также включены сборки для openEuler, ориентированные на процессоры x86 и aarch64 с поддержкой ACL Graph. Рядом с платформо-специфичными выпусками доступен автономный пакет UI для облегчения локального вывода моделей.

github llama.cpp · 8 ч назад

Релиз LLaMA.cpp b9784: оптимизации для операций MM на основе Hexagon и бинарники для разных платформ

LLaMA.cpp выпускает версию b9784 с существенными оптимизациями для операций MM на основе Hexagon, включая тайлинг весов 32x32, улучшенную обработку dyn.quant и единое управление параметрами ядра. В релизе представлены новые бинарники для macOS (arm64 и x64), iOS и нескольких архитектур Linux с поддержкой Vulkan, ROCm и OpenVINO.

github llama.cpp · 10 ч назад

llama.cpp выпускает b9782 с новыми бинарниками и поддержкой

llama.cpp выпускает версию b9782, включающую бинарники для macOS, Linux, Android, Windows и openEuler. В релизе добавлена поддержка Vulkan, OpenVINO, SYCL, ROCm и CUDA на нескольких архитектурах, с обновлённым интерфейсом и отключёнными функциями, такими как KleidiAI и поддержка openEuler.

github llama.cpp · 13 ч назад

llama.cpp выпускает b9781 с поддержкой Vulkan и мультиплатформенностью

llama.cpp выпускает версию b9781, добавляя поддержку Vulkan для Linux и Windows, и расширяя поддержку на несколько архитектур, включая ARM64 и x64 на macOS, Linux, Android и Windows. В выпуске представлены сборки для CPU, CUDA, OpenVINO, SYCL и ROCm, а также доступен компонент интерфейса.

github llama.cpp · 18 ч назад

vulkan-shaders-gen теперь прерывает сборку при ошибках компиляции шейдеров

Инструмент vulkan-shaders-gen теперь обнаруживает и прерывает сборку при сбоях компиляции шейдеров, предотвращая создание повреждённой библиотеки libggml-vulkan. Это исправление решает предыдущую проблему, при которой успешная сборка скрывала сбои на этапе выполнения, и включает улучшения обработки ошибок и управления атомарными флагами на разных платформах.

github llama.cpp · 19 ч назад

Релиз LLaMA.cpp b9777 добавляет новые модели и бинарники для разных платформ

Релиз LLaMA.cpp b9777 добавляет модели LFM2.5-ColBERT-350M и LFM2.5-Embedding-357M. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и ускорения, такие как CUDA, Vulkan, OpenVINO и SYCL.

github llama.cpp · 1 д назад

llama.cpp release b9776 добавляет поддержку Vulkan и нескольких аппаратных платформ

Версия llama.cpp b9776 вводит поддержку Vulkan для Linux и Windows, а также варианты для CPU, OpenCL, CUDA и SYCL на macOS, Linux, Android и Windows. В выпуске также включена поддержка OpenVINO и ROCm, с интерфейсом, доступным в отдельном пакете.

github llama.cpp · 1 д назад

Обновления бэкенда Vulkan и новые версии бинарных файлов для llama.cpp

Релиз llama.cpp b9774 добавляет поддержку бэкенда Vulkan для операций SQR, SQRT, SIN, COS, CLAMP, LEAKY_RELU и NORM, с поддержкой непрерывных входных данных. В релизе представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на различных архитектурах и бэкендах, включая CUDA, OpenVINO, SYCL и ROCm.

github llama.cpp · 1 д назад

Релиз LLaMA.cpp b9775: новые бинарники и поддержка нескольких платформ

LLaMA.cpp выпустил версию b9775, в которой представлены бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах. В релизе включены поддержка CPU, Vulkan, OpenVINO, SYCL и ROCm, обновленные версии CUDA (12.4 и 13.3) и доступность iOS XCFramework. Также предоставляется пакет интерфейса.

github llama.cpp · 2 д назад

Релиз LLaMA.cpp b9771 добавляет поддержку Vulkan и оптимизации

Релиз LLaMA.cpp b9771 вводит поддержку Vulkan на Linux и Windows, уменьшая количество вариантов шейдеров и размер бинарного файла, делая mul_mm ALIGNED специальной константой. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler, с вариантами для CPU, Vulkan, OpenVINO, SYCL и ROCm.

github llama.cpp · 2 д назад

Исправление проверки результатов Vulkan и связи тестов в llama.cpp

llama.cpp теперь связывает ggml-cpu при включении GGML_VULKAN_CHECK_RESULTS или GGML_VULKAN_RUN_TESTS для устранения ошибок связи. Это исправление восстанавливает функциональность отладки для проверки результатов Vulkan и тестирования после разделения библиотеки ggml-cpu.

github llama.cpp · 2 д назад

llama.cpp release b9767 добавляет поддержку GPU и мультиплатформенности

llama.cpp release b9767 улучшает инференс MTP с использованием путей мат-вектора для малых батчей и включает обновлённую поддержку GPU. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 2 д назад

llama.cpp Release b9763 Добавляет ID в ответы на вызовы инструментов

Версия llama.cpp b9763 вводит поле ID в ответах на вызовы инструментов. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения аппаратного обеспечения, а также доступен компонент интерфейса.

github llama.cpp · 4 д назад

llama.cpp Release b9741 Adds New Binaries and Support

llama.cpp version b9741 вводит новые бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе предусмотрена поддержка Vulkan, CUDA 12.4 и 13.3, OpenVINO, SYCL и ROCm, а также обновленные версии для iOS и Ubuntu.

github llama.cpp · 4 д назад

Исправление случайных сбоев в test-args-parser на Windows

Патч устраняет случайные сбои в тесте test-args-parser на Windows, изменяя перекрытие argv так, чтобы применяться только при совпадении argc, предотвращая перезапись программных аргументов. Это устраняет сбой быстрого отказа в рабочем процессе OpenVINO на Windows, при этом сохраняя обработку UTF-8 для реальных исполняемых файлов.

github llama.cpp · 5 д назад

LLaMA.cpp Release b9739 Adds Win OpenCL Adreno ARM64 Support

LLaMA.cpp версия b9739 добавляет поддержку Windows ARM64 с использованием OpenCL Adreno. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 5 д назад

llama.cpp release b9738: fixes CORS auth header forwarding and new binary builds

llama.cpp version b9738 исправляет прокси CORS для предотвращения передачи аутентификационных заголовков. В выпуске представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 5 д назад

Исправление индексатора DSA для GLM-5.2: тензоры помечены как не требуемые

Индексатор DSA для модели GLM-5.2 неправильно загружался на всех слоях, что приводило к сбоям из-за отсутствия тензоров. В обновлении тензоры индексатора помечаются как TENSOR_NOT_REQUIRED, что позволяет слоям без индексатора загружать как nullptr, обеспечивая полную работу внимания MLA. Модель DeepSeek-V3.2, имеющая единое индексирование, не затронута.

github llama.cpp · 5 д назад

ggml-webgpu Добавляет переключатели адаптера для поддержки F16 на Vulkan и NVIDIA

Проект ggml-webgpu добавил переключатели адаптера для поддержки полупrecision (F16) на видеокартах Vulkan и NVIDIA. Обновление позволяет повысить производительность на совместимом оборудовании на нескольких платформах, включая macOS, Linux, Android, Windows и openEuler, с конкретными сборками для архитектур ARM и x64.