Open weights
media r/LocalLLaMA · 3 ч назад

Выпущены несексуризированные сбалансированные Gemma4-26B-A4B и 31B-QAT со ускорением за счёт MTP

HauhauCS выпустил две новые несексуризированные сбалансированные версии моделей Gemma 4: Gemma4-26B-A4B и Gemma4-31B-QAT. Оба варианта включают черновики для многозапросного предсказания (MTP) для обеспечения спекулятивного декодирования, что приводит к значительному ускорению вывода. Модель 26B-A4B демонстрирует примерно 35% прирост скорости, а модель 31B — увеличение на 53%, при этом качество вывода остаётся идентичным благодаря механизму черновиков модели. Эти релизы используют квантование, учитывающее QAT, что делает формат Q4_K_M оптимальным, поскольку более высокая точность не даёт улучшения качества для этих конкретных моделей. Модель 26B-A4B представляет собой архитектуру Mixture of Experts с примерно 4 миллиардами активных параметров на токен, тогда как вариант 31B является плотной моделью, предлагающей более высокие возможности для пользователей с достаточным объёмом VRAM. Обе модели поддерживают работу с изображениями через файлы mmproj и сохраняют контекстное окно длиной 262K токенов. Автор отмечает, что тестирование GenRM не выявило ни одного отказа в ответе на 465 запросов, подтверждая их несексуризированный характер.

media r/LocalLLaMA · 5 ч назад

GLM-5.2 на 4x DGX Spark: Восстановление недостающих шагов сборки для MTP спекулятивного декодирования

Автор успешно развернул GLM-5.2 со спекулятивным декодированием MTP на кластере из четырех узлов NVIDIA GB10 (DGX Spark), достигнув скорости около 9,4 токенов в секунду. Эта конфигурация использует vLLM с тензорным параллелизмом, портированные ядра Triton для разреженного MLA и детерминированное отсечение 15% экспертов для размещения весов AWQ-INT4. Ключевым выводом стало то, что исходные инструкции по сборке Docker-образа неполны, что требует восстановления недостающих патчей для файлов deep_gemm.py и sparse_attn_indexer.py. Автор также выявил, что использование любой версии vLLM, отличной от конкретного зафиксированного коммита, приводит к падению загрузки реальных весов AWQ из-за ошибок CUDA. Для воспроизведения среды пользователям необходимо применить пользовательский скрипт, который внедряет ядра и маршрутизирует функции в fallback-решения для sm12x. Преимущества производительности включают примерно двукратное увеличение скорости по сравнению с предыдущими реализациями llama.cpp, хотя пропускная способность между узлами остается узким местом для масштабирования с использованием двойных шин (dual-rail).

media r/LocalLLaMA · 9 ч назад

SDXL работает локально в браузере на WebGPU, открытый исходный код

Браузерное расширение позволяет генерировать изображения локально с использованием моделей SDXL через WebGPU, работающих на видеокарте пользователя без дополнительных настроек. Инструмент поддерживает два варианта: SDXL-Lighting fp16 (7 ГБ) и версия 4-бит (3,6 ГБ), при этом требуется не менее 8 ГБ VRAM для полной модели и браузер с поддержкой WebGPU (Chrome/Edge 122+ или последняя версия Firefox).

github llama.cpp · 10 ч назад

llama.cpp выпускает b9782 с новыми бинарниками и поддержкой

llama.cpp выпускает версию b9782, включающую бинарники для macOS, Linux, Android, Windows и openEuler. В релизе добавлена поддержка Vulkan, OpenVINO, SYCL, ROCm и CUDA на нескольких архитектурах, с обновлённым интерфейсом и отключёнными функциями, такими как KleidiAI и поддержка openEuler.

media r/LocalLLaMA · 11 ч назад

Sipp: открытая библиотека для инференса в браузере, построенная на llama.cpp

Sipp — это открытая библиотека, которая позволяет выполнять инференс локальных языковых моделей в браузере с использованием llama.cpp. Она позволяет пользователям запускать инференс локальных языковых моделей прямо в веб-браузерах без зависимости от облачных сервисов. Проект доступен на GitHub по адресу https://github.com/noumena-labs/Sipp.

arxiv arXiv cs.AI · 12 ч назад

SciVerseGym: среда для обучения с подкреплением для открытия кристаллов

SciVerseGym представляет среду, совместимую с Gymnasium, которая формирует открытие кристаллов как процесс марковского решения. Оно позволяет агентам выполнять химически значимые изменения на атомных структурах и получать обратную связь от настраиваемых оценщиков, поддерживая разнообразные типы действий и наблюдений с использованием машинных потенциалов или калькуляторов, совместимых с ASE.

media r/LocalLLaMA · 12 ч назад

Создание LLM с нуля с использованием MLX

Разработчик создал Nano LLM с 20,2 млн параметров на MacBook Air с использованием фреймворка MLX. Проект демонстрирует, что создание крупного языкового моделирования с нуля возможно при минимальных требованиях к оборудованию и базовых знаниях Python.

github llama.cpp · 13 ч назад

llama.cpp выпускает b9781 с поддержкой Vulkan и мультиплатформенностью

llama.cpp выпускает версию b9781, добавляя поддержку Vulkan для Linux и Windows, и расширяя поддержку на несколько архитектур, включая ARM64 и x64 на macOS, Linux, Android и Windows. В выпуске представлены сборки для CPU, CUDA, OpenVINO, SYCL и ROCm, а также доступен компонент интерфейса.

media r/LocalLLaMA · 14 ч назад

Применение хаков увеличивает скорость GLM5.2 с 2,5 до более чем 50 ток/с

Пользователь достиг более чем 50 токенов в секунду для GLM5.2 на своей системе GH200, объединив головку MTP из репозитория zai по FP8 с квантованной моделью AWQ-INT4 от CyanKiwi. Такой гибридный подход, реализованный через скрипт слияния и модифицированную версию vLLM, достиг максимальной скорости около 55 ток/с при 4-кратной конкуренции и около 45 ток/с при одиночной инференсе, с потоковым перемещением из ОЗУ в ОЗУ.

media Hugging Face Forums · 14 ч назад

Прототип мобильного агента Aiden

Aiden — это физическое устройство ИИ-агента, которое контролирует экран телефона через HDMI и управляет им через USB HID, позволяя автоматизировать приложения без jailbreak или установленного программного обеспечения. Оно поддерживает использование собственных моделей LLM, работает без необходимости в backend-инфраструктуре или сборе данных, и выпущено под лицензией AGPL как открытая разработка платформы.

media r/LocalLLaMA · 15 ч назад

Выпущен модель Nex-N2-Mini-Ultra-Uncensored-Heretic

Модель Nex-N2-Mini-Ultra-Uncensored-Heretic теперь доступна, с агентным мышлением, 5/100 отказов и KLD 0,0020. Модель выпущена в форматах Safetensors и GGUF и доступна через Hugging Face. Создатель отмечает, что был выбран Heretic 1.2.0 вместо 1.4.0 из-за лучшей производительности при избежании высокого KLD и сохранении низких порогов отказов.

media r/LocalLLaMA · 16 ч назад

Какие инструменты используют люди для оценки VRAM и RAM для локальных LLM?

Пользователи отмечают, что hf-accelerate's model-memory-usage и NyxKrage's LLM VRAM Calculator являются распространенными инструментами для оценки потребностей в VRAM и RAM. Инструмент NyxKrage отмечен как KV-cache-сознательный и настраиваемый с параметрами квантования и длины контекста, хотя результаты могут варьироваться в зависимости от моделей и движков, таких как llama.cpp или vLLM, из-за поведения квантования и кэширования.

media r/LocalLLaMA · 18 ч назад

обновления llama.cpp: модели Granite-Speech, LFM2.5-ColBERT, улучшения в бэкенде Vulkan

llama.cpp теперь поддерживает модели granite-speech-4.1-2b-plus и LFM2.5-ColBERT/Embedding-350M. В улучшениях бэкенда Vulkan включены поддержка 3D-конволюций, операций с выравниванием, GET_ROWS_BACK и улучшенная числовая стабильность в слоях прямого распространения. Дополнительные улучшения охватывают улучшения интерфейса и покрытие тестов в бэкенде.

github llama.cpp · 19 ч назад

Релиз LLaMA.cpp b9777 добавляет новые модели и бинарники для разных платформ

Релиз LLaMA.cpp b9777 добавляет модели LFM2.5-ColBERT-350M и LFM2.5-Embedding-357M. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и ускорения, такие как CUDA, Vulkan, OpenVINO и SYCL.

media r/LocalLLaMA · 20 ч назад

Новый европейский модель AI Domyn будет иметь 400 миллиардов параметров

Стартап разработал закрытую модель Domyn с 260 миллиардами параметров для использования в корпоративной среде и открытую модель 10 миллиардов параметров, доступную на HuggingFace. Компания объявляет о новой европейской модели AI Domyn, которая будет масштабироваться до 400 миллиардов параметров.

github llama.cpp · 1 д назад

llama.cpp release b9776 добавляет поддержку Vulkan и нескольких аппаратных платформ

Версия llama.cpp b9776 вводит поддержку Vulkan для Linux и Windows, а также варианты для CPU, OpenCL, CUDA и SYCL на macOS, Linux, Android и Windows. В выпуске также включена поддержка OpenVINO и ROCm, с интерфейсом, доступным в отдельном пакете.

arxiv arXiv cs.CL · 1 д назад

Позиционная маркировка смысла арабско-английского словаря с помощью WordNet

В статье представлен алгоритм, который передает теги части речи на английском языке из Princeton WordNet к арабско-английским смыслам словарей после разрешения неоднозначности. Это позволяет связывать билингвальные словари с WordNet и стандартизировать их в формате WordNet-LMF, где синсеты являются основной единицей, с высокой точностью при низкой стоимости.

arxiv arXiv cs.CL · 1 д назад

ComputeFHE: Библиотека общего назначения для вычислений с обеспечением конфиденциальности

ComputeFHE — это открытый исходный библиотека на языке C++, обеспечивающая вычисления с обеспечением конфиденциальности с использованием криптосистемы TFHE. Она предлагает зашифрованные типы данных для целых чисел и фиксированных точек с арифметическими и логическими операциями, поддерживая как стандартные, так и оптимизированные архитектуры ALU, подходящие для FHE. Экспериментальные результаты показывают улучшение производительности до 3,9 раз и снижение количества операций бутстрапа, при этом имеется режим симуляции для тестирования и анализа сложности без выполнения криптографических операций.

arxiv arXiv cs.CL · 1 д назад

Штраф на токенизацию африканских языков в передовых моделях языков

Языки Африки испытывают штраф на токенизацию в 1,88 раза до 8,92 раза по сравнению с английским в передовых моделях языков, при этом скрипты Эфиопийского и Н'Ко несут наибольшие расходы. Этот штраф приводит к увеличению затрат на инференс до 8,9 раз и сокращению объёма контекста, при этом некоторые языки получают всего 11% от объёма контекста английского языка. Штраф сохраняется при различных корпусах и не устраняется современными токенизаторами, что подчёркивает структурное цифровое неравенство.

arxiv arXiv cs.CL · 1 д назад

RaDaR: ИИ-модель улучшает диагностику редких заболеваний

RaDaR, компактная модель логического мышления, превзошла другие открытые модели по диагностике редких заболеваний. В рандомизированном исследовании RaDaR повысил точность диагностики врачей на 21,44 процентных пункта по сравнению с поиском в интернете.