Inference efficiency — korshunov.ai

Тема · Inference efficiency

OpenAI и Broadcom презентуют чип для инференса больших языковых моделей

OpenAI и Broadcom представили чип Jalapeño, разработанный специально для инференса больших языковых моделей. Чип направлен на повышение производительности, эффективности и масштабируемости в системах искусственного интеллекта.

github llama.cpp · 5 д назад

ggml оптимизирует AMX с помощью плоской обработки разделов

Проект ggml повысил производительность AMX за счёт плоской обработки разделов по n_batch * M, обеспечивая участие всех потоков в квантовании. Данное изменение обеспечивает ускорение на 1,47 раза при различных моделях и конфигурациях аппаратуры на платформах CPU и GPU, при этом результаты демонстрируют стабильное сокращение времени инференса.

lab Claude Code Releases · 7 д назад

Официальные заметки по выпуску Claude Code v2.1.181

Claude Code v2.1.181 вводит поддержку настройки параметров конфигурации через синтаксис промпта, например /config thinking=false, добавляет поддержку событий Apple в среде macOS и улучшает поведение потокового вывода, автоматического повтора и подагентов. Также исправлены множество ошибок, связанных с запуском, обработкой файлов, копированием и отзывчивостью интерфейса на разных платформах.

github llama.cpp · 2 ч назад

Выпуск llama.cpp b9785 с усиленной проверкой флагов и бинарными файлами для нескольких платформ

Проект llama.cpp выпустил версию b9785, включающую изменение кода для усиления проверки флагов, как подробно описано в pull request #24973. Это обновление предоставляет предварительно собранные бинарные файлы для macOS Apple Silicon, Mac на базе Intel и iOS через XCFramework, при этом поддержка KleidiAI отключена на Apple Silicon. Поддерживаются дистрибутивы Linux, включая Ubuntu, для CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL-бэкендов на архитектурах x64, arm64 и s390x. Пользователи Android могут получить доступ к бинарным файлам CPU для arm64, а Windows предлагает широкий выбор вариантов: CPU, OpenCL Adreno, CUDA 12 и 13, Vulkan, OpenVINO, SYCL и HIP. В релиз также включены сборки для openEuler, ориентированные на процессоры x86 и aarch64 с поддержкой ACL Graph. Рядом с платформо-специфичными выпусками доступен автономный пакет UI для облегчения локального вывода моделей.

github llama.cpp · 8 ч назад

Релиз LLaMA.cpp b9784: оптимизации для операций MM на основе Hexagon и бинарники для разных платформ

LLaMA.cpp выпускает версию b9784 с существенными оптимизациями для операций MM на основе Hexagon, включая тайлинг весов 32x32, улучшенную обработку dyn.quant и единое управление параметрами ядра. В релизе представлены новые бинарники для macOS (arm64 и x64), iOS и нескольких архитектур Linux с поддержкой Vulkan, ROCm и OpenVINO.

github llama.cpp · 10 ч назад

llama.cpp выпускает b9782 с новыми бинарниками и поддержкой

llama.cpp выпускает версию b9782, включающую бинарники для macOS, Linux, Android, Windows и openEuler. В релизе добавлена поддержка Vulkan, OpenVINO, SYCL, ROCm и CUDA на нескольких архитектурах, с обновлённым интерфейсом и отключёнными функциями, такими как KleidiAI и поддержка openEuler.

github llama.cpp · 13 ч назад

llama.cpp выпускает b9781 с поддержкой Vulkan и мультиплатформенностью

llama.cpp выпускает версию b9781, добавляя поддержку Vulkan для Linux и Windows, и расширяя поддержку на несколько архитектур, включая ARM64 и x64 на macOS, Linux, Android и Windows. В выпуске представлены сборки для CPU, CUDA, OpenVINO, SYCL и ROCm, а также доступен компонент интерфейса.

github llama.cpp · 19 ч назад

Релиз LLaMA.cpp b9777 добавляет новые модели и бинарники для разных платформ

Релиз LLaMA.cpp b9777 добавляет модели LFM2.5-ColBERT-350M и LFM2.5-Embedding-357M. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и ускорения, такие как CUDA, Vulkan, OpenVINO и SYCL.

github llama.cpp · 1 д назад

llama.cpp release b9776 добавляет поддержку Vulkan и нескольких аппаратных платформ

Версия llama.cpp b9776 вводит поддержку Vulkan для Linux и Windows, а также варианты для CPU, OpenCL, CUDA и SYCL на macOS, Linux, Android и Windows. В выпуске также включена поддержка OpenVINO и ROCm, с интерфейсом, доступным в отдельном пакете.

github llama.cpp · 1 д назад

Обновления бэкенда Vulkan и новые версии бинарных файлов для llama.cpp

Релиз llama.cpp b9774 добавляет поддержку бэкенда Vulkan для операций SQR, SQRT, SIN, COS, CLAMP, LEAKY_RELU и NORM, с поддержкой непрерывных входных данных. В релизе представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на различных архитектурах и бэкендах, включая CUDA, OpenVINO, SYCL и ROCm.

github llama.cpp · 1 д назад

Релиз LLaMA.cpp b9775: новые бинарники и поддержка нескольких платформ

LLaMA.cpp выпустил версию b9775, в которой представлены бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах. В релизе включены поддержка CPU, Vulkan, OpenVINO, SYCL и ROCm, обновленные версии CUDA (12.4 и 13.3) и доступность iOS XCFramework. Также предоставляется пакет интерфейса.

github llama.cpp · 2 д назад

Релиз LLaMA.cpp b9771 добавляет поддержку Vulkan и оптимизации

Релиз LLaMA.cpp b9771 вводит поддержку Vulkan на Linux и Windows, уменьшая количество вариантов шейдеров и размер бинарного файла, делая mul_mm ALIGNED специальной константой. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler, с вариантами для CPU, Vulkan, OpenVINO, SYCL и ROCm.

github llama.cpp · 2 д назад

Исправление проверки результатов Vulkan и связи тестов в llama.cpp

llama.cpp теперь связывает ggml-cpu при включении GGML_VULKAN_CHECK_RESULTS или GGML_VULKAN_RUN_TESTS для устранения ошибок связи. Это исправление восстанавливает функциональность отладки для проверки результатов Vulkan и тестирования после разделения библиотеки ggml-cpu.

github llama.cpp · 2 д назад

llama.cpp release b9767 добавляет поддержку GPU и мультиплатформенности

llama.cpp release b9767 улучшает инференс MTP с использованием путей мат-вектора для малых батчей и включает обновлённую поддержку GPU. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 2 д назад

llama.cpp Release b9763 Добавляет ID в ответы на вызовы инструментов

Версия llama.cpp b9763 вводит поле ID в ответах на вызовы инструментов. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения аппаратного обеспечения, а также доступен компонент интерфейса.

media Hugging Face Forums · 3 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

github llama.cpp · 4 д назад

llama.cpp Release b9741 Adds New Binaries and Support

llama.cpp version b9741 вводит новые бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе предусмотрена поддержка Vulkan, CUDA 12.4 и 13.3, OpenVINO, SYCL и ROCm, а также обновленные версии для iOS и Ubuntu.

github llama.cpp · 4 д назад

Исправление случайных сбоев в test-args-parser на Windows

Патч устраняет случайные сбои в тесте test-args-parser на Windows, изменяя перекрытие argv так, чтобы применяться только при совпадении argc, предотвращая перезапись программных аргументов. Это устраняет сбой быстрого отказа в рабочем процессе OpenVINO на Windows, при этом сохраняя обработку UTF-8 для реальных исполняемых файлов.

github llama.cpp · 5 д назад

llama.cpp release b9738: fixes CORS auth header forwarding and new binary builds

llama.cpp version b9738 исправляет прокси CORS для предотвращения передачи аутентификационных заголовков. В выпуске представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 5 д назад

Исправление индексатора DSA для GLM-5.2: тензоры помечены как не требуемые

Индексатор DSA для модели GLM-5.2 неправильно загружался на всех слоях, что приводило к сбоям из-за отсутствия тензоров. В обновлении тензоры индексатора помечаются как TENSOR_NOT_REQUIRED, что позволяет слоям без индексатора загружать как nullptr, обеспечивая полную работу внимания MLA. Модель DeepSeek-V3.2, имеющая единое индексирование, не затронута.