Тема · Open weights
github llama.cpp · 5 д назад

ggml оптимизирует AMX с помощью плоской обработки разделов

Проект ggml повысил производительность AMX за счёт плоской обработки разделов по n_batch * M, обеспечивая участие всех потоков в квантовании. Данное изменение обеспечивает ускорение на 1,47 раза при различных моделях и конфигурациях аппаратуры на платформах CPU и GPU, при этом результаты демонстрируют стабильное сокращение времени инференса.

github llama.cpp · 10 ч назад

llama.cpp выпускает b9782 с новыми бинарниками и поддержкой

llama.cpp выпускает версию b9782, включающую бинарники для macOS, Linux, Android, Windows и openEuler. В релизе добавлена поддержка Vulkan, OpenVINO, SYCL, ROCm и CUDA на нескольких архитектурах, с обновлённым интерфейсом и отключёнными функциями, такими как KleidiAI и поддержка openEuler.

github llama.cpp · 13 ч назад

llama.cpp выпускает b9781 с поддержкой Vulkan и мультиплатформенностью

llama.cpp выпускает версию b9781, добавляя поддержку Vulkan для Linux и Windows, и расширяя поддержку на несколько архитектур, включая ARM64 и x64 на macOS, Linux, Android и Windows. В выпуске представлены сборки для CPU, CUDA, OpenVINO, SYCL и ROCm, а также доступен компонент интерфейса.

github llama.cpp · 19 ч назад

Релиз LLaMA.cpp b9777 добавляет новые модели и бинарники для разных платформ

Релиз LLaMA.cpp b9777 добавляет модели LFM2.5-ColBERT-350M и LFM2.5-Embedding-357M. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и ускорения, такие как CUDA, Vulkan, OpenVINO и SYCL.

github llama.cpp · 1 д назад

llama.cpp release b9776 добавляет поддержку Vulkan и нескольких аппаратных платформ

Версия llama.cpp b9776 вводит поддержку Vulkan для Linux и Windows, а также варианты для CPU, OpenCL, CUDA и SYCL на macOS, Linux, Android и Windows. В выпуске также включена поддержка OpenVINO и ROCm, с интерфейсом, доступным в отдельном пакете.

github llama.cpp · 1 д назад

Обновления бэкенда Vulkan и новые версии бинарных файлов для llama.cpp

Релиз llama.cpp b9774 добавляет поддержку бэкенда Vulkan для операций SQR, SQRT, SIN, COS, CLAMP, LEAKY_RELU и NORM, с поддержкой непрерывных входных данных. В релизе представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на различных архитектурах и бэкендах, включая CUDA, OpenVINO, SYCL и ROCm.

github llama.cpp · 1 д назад

Релиз LLaMA.cpp b9775: новые бинарники и поддержка нескольких платформ

LLaMA.cpp выпустил версию b9775, в которой представлены бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах. В релизе включены поддержка CPU, Vulkan, OpenVINO, SYCL и ROCm, обновленные версии CUDA (12.4 и 13.3) и доступность iOS XCFramework. Также предоставляется пакет интерфейса.

github llama.cpp · 2 д назад

Исправление проверки результатов Vulkan и связи тестов в llama.cpp

llama.cpp теперь связывает ggml-cpu при включении GGML_VULKAN_CHECK_RESULTS или GGML_VULKAN_RUN_TESTS для устранения ошибок связи. Это исправление восстанавливает функциональность отладки для проверки результатов Vulkan и тестирования после разделения библиотеки ggml-cpu.

media r/LocalLLaMA · 2 д назад

Закон ЕС о искусственном интеллекте требует водяных знаков текста, сгенерированного ИИ, с августа 2024 года

Закон ЕС о искусственном интеллекте требует, чтобы все системы искусственного интеллекта, генерирующие синтетический текст, включали водяные знаки, доступные для машинного чтения и обнаружения, используя устойчивые, взаимодействующие технические решения с двумя слоями. Это касается всех моделей ИИ, включая открытые, и распространяется на любые услуги, доступные гражданам ЕС, независимо от их местоположения. Несоблюдение требований может привести к штрафам в размере до 35 миллионов евро или доли годового дохода, при этом поставщики моделей ИИ, представляющих системную угрозу, подвергаются повышенной ответственности.

github llama.cpp · 2 д назад

llama.cpp Release b9763 Добавляет ID в ответы на вызовы инструментов

Версия llama.cpp b9763 вводит поле ID в ответах на вызовы инструментов. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения аппаратного обеспечения, а также доступен компонент интерфейса.

github llama.cpp · 4 д назад

Исправление случайных сбоев в test-args-parser на Windows

Патч устраняет случайные сбои в тесте test-args-parser на Windows, изменяя перекрытие argv так, чтобы применяться только при совпадении argc, предотвращая перезапись программных аргументов. Это устраняет сбой быстрого отказа в рабочем процессе OpenVINO на Windows, при этом сохраняя обработку UTF-8 для реальных исполняемых файлов.

github llama.cpp · 5 д назад

ggml-webgpu Добавляет переключатели адаптера для поддержки F16 на Vulkan и NVIDIA

Проект ggml-webgpu добавил переключатели адаптера для поддержки полупrecision (F16) на видеокартах Vulkan и NVIDIA. Обновление позволяет повысить производительность на совместимом оборудовании на нескольких платформах, включая macOS, Linux, Android, Windows и openEuler, с конкретными сборками для архитектур ARM и x64.

github llama.cpp · 5 д назад

Релиз LLaMA.cpp b9729: Новые бинарники и поддержка платформ

LLaMA.cpp выпускает версию b9729 с бинарниками для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе включены поддержка CPU, Vulkan, OpenVINO, SYCL и ROCm, а также новый пакет интерфейса. Удалены внутренние ссылки на 'webui'.

github llama.cpp · 5 д назад

llama.cpp Release b9721 Доступен для нескольких платформ

llama.cpp выпустил версию b9721, в которой доступны бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах. В выпуске включены поддержка CPU, Vulkan, ROCm, OpenVINO, SYCL и HIP, а также отдельный пакет для интерфейса. Поддержка Apple Silicon с KleidiAI на данный момент отключена.

arxiv arXiv cs.CL · 6 д назад

STAGE: Генерация данных с опорой на источник для преобразования текста в JSON

STAGE — это пайплайн, который генерирует обучающие данные текст-в-JSON с использованием языковых моделей для синтеза отчётов и схем JSON, проверенных посредством исходных таблиц. Оценки на STAGE-Eval показывают, что STAGE повышает точность Qwen3-4B с 31,37% до 74,27% и точность значений с 45,46% до 90,69%.

github llama.cpp · 6 д назад

llama.cpp Release b9703: Обновления и бинарные загрузки

Версия llama.cpp b9703 включает переработку обработки предустановок сервера, удаление поддержки удаленных предустановок HF и устаревших функций. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 6 д назад

llama.cpp release b9704: fixes invalid grammar handling and adds new binaries

llama.cpp version b9704 теперь возвращает HTTP 400 для недопустимой грамматики вместо тихого игнорирования ограничений. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на разных архитектурах и аппаратных ускорителях, с поддержкой Vulkan, ROCm, OpenVINO, SYCL и CUDA.

arxiv arXiv cs.AI · 7 д назад

Пользователь как энгра: локальные параметрические редакции для личной памяти

Пользователь как энгра предлагает хранить факты по каждому пользователю в виде хирургических, хеш-ключевых редакций в таблице памяти, оставляя процесс мышления в общем адаптере. Такой подход обеспечивает на 5,6 раза более высокую точность косвенного мышления и сохраняет базовую производительность мышления, при этом объем памяти на 33 000 раз меньше, чем при использовании LoRA по каждому пользователю. Метод позволяет выполнять раздельные редакции пользователей, которые составляются без потерь, превосходя ретриевные потоки при более чем 100 фактах.

arxiv arXiv cs.CL · 7 д назад

PragReST: Саморазвивающаяся косвенная логика для понимания прямого языка

PragReST — это самосупервизированная система, которая улучшает прямое мышление больших языковых моделей за счёт генерации следов косвенного мышления и обучения через надзорную тонкую настройку и обучение с помощью вознаграждения. Она превосходит базовые модели на четырёх прямых тестах, улучшая точность Qwen3-8B и Qwen3-14B на 5,37% и 5-5,50% соответственно, и сохраняет сильную производительность на задачах общего знания и математического мышления.