Inference efficiency — korshunov.ai

Inference efficiency Страница 1 / 9

BITEMBED: Экстремально низкоразрядная архитектура для текстовых эмбеддингов на основе LLM

В статье представлен BITEMBED — экстремально низкоразрядная архитектура, предназначенная для решения проблемы высоких затрат на развертывание текстовых эмбеддеров на основе больших языковых моделей (LLM) за счет оптимизации как эффективности кодирования, так и хранения векторов. Метод преобразует предварительно обученные базовые архитектуры LLM в энкодеры типа BitNet с тернарными весами, квантованными активациями и легковесной настройкой нормализации. Для адаптации этих моделей к задачам обучения представлений BITEMBED использует непрерывное контрастивное предобучение, за которым следует контролируемое контрастивное дообучение. Этот процесс дообучения применяет дистилляцию распределения сходства и дистилляцию отношений внимания от полноточной учительской модели. Помимо квантования базовой архитектуры, архитектура обучает выходные эмбеддинги поддерживать несколько точностей хранения, что позволяет гибко балансировать между производительностью и затратами на хранение. Эксперименты на бенчмарке MMTEB с использованием Qwen3-0.6B и Gemma3-270M демонстрируют, что BITEMBED по своим характеристикам в значительной степени сопоставим с полноточными учительскими эмбеддерами.

github llama.cpp · 2 ч назад

Выпуск llama.cpp b9785 с усиленной проверкой флагов и бинарными файлами для нескольких платформ

Проект llama.cpp выпустил версию b9785, включающую изменение кода для усиления проверки флагов, как подробно описано в pull request #24973. Это обновление предоставляет предварительно собранные бинарные файлы для macOS Apple Silicon, Mac на базе Intel и iOS через XCFramework, при этом поддержка KleidiAI отключена на Apple Silicon. Поддерживаются дистрибутивы Linux, включая Ubuntu, для CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL-бэкендов на архитектурах x64, arm64 и s390x. Пользователи Android могут получить доступ к бинарным файлам CPU для arm64, а Windows предлагает широкий выбор вариантов: CPU, OpenCL Adreno, CUDA 12 и 13, Vulkan, OpenVINO, SYCL и HIP. В релиз также включены сборки для openEuler, ориентированные на процессоры x86 и aarch64 с поддержкой ACL Graph. Рядом с платформо-специфичными выпусками доступен автономный пакет UI для облегчения локального вывода моделей.

media r/LocalLLaMA · 3 ч назад

Выпущены несексуризированные сбалансированные Gemma4-26B-A4B и 31B-QAT со ускорением за счёт MTP

HauhauCS выпустил две новые несексуризированные сбалансированные версии моделей Gemma 4: Gemma4-26B-A4B и Gemma4-31B-QAT. Оба варианта включают черновики для многозапросного предсказания (MTP) для обеспечения спекулятивного декодирования, что приводит к значительному ускорению вывода. Модель 26B-A4B демонстрирует примерно 35% прирост скорости, а модель 31B — увеличение на 53%, при этом качество вывода остаётся идентичным благодаря механизму черновиков модели. Эти релизы используют квантование, учитывающее QAT, что делает формат Q4_K_M оптимальным, поскольку более высокая точность не даёт улучшения качества для этих конкретных моделей. Модель 26B-A4B представляет собой архитектуру Mixture of Experts с примерно 4 миллиардами активных параметров на токен, тогда как вариант 31B является плотной моделью, предлагающей более высокие возможности для пользователей с достаточным объёмом VRAM. Обе модели поддерживают работу с изображениями через файлы mmproj и сохраняют контекстное окно длиной 262K токенов. Автор отмечает, что тестирование GenRM не выявило ни одного отказа в ответе на 465 запросов, подтверждая их несексуризированный характер.

media r/LocalLLaMA · 5 ч назад

GLM-5.2 на 4x DGX Spark: Восстановление недостающих шагов сборки для MTP спекулятивного декодирования

Автор успешно развернул GLM-5.2 со спекулятивным декодированием MTP на кластере из четырех узлов NVIDIA GB10 (DGX Spark), достигнув скорости около 9,4 токенов в секунду. Эта конфигурация использует vLLM с тензорным параллелизмом, портированные ядра Triton для разреженного MLA и детерминированное отсечение 15% экспертов для размещения весов AWQ-INT4. Ключевым выводом стало то, что исходные инструкции по сборке Docker-образа неполны, что требует восстановления недостающих патчей для файлов deep_gemm.py и sparse_attn_indexer.py. Автор также выявил, что использование любой версии vLLM, отличной от конкретного зафиксированного коммита, приводит к падению загрузки реальных весов AWQ из-за ошибок CUDA. Для воспроизведения среды пользователям необходимо применить пользовательский скрипт, который внедряет ядра и маршрутизирует функции в fallback-решения для sm12x. Преимущества производительности включают примерно двукратное увеличение скорости по сравнению с предыдущими реализациями llama.cpp, хотя пропускная способность между узлами остается узким местом для масштабирования с использованием двойных шин (dual-rail).

media r/LocalLLaMA · 5 ч назад

Gefen: готовая замена AdamW с заявленным снижением потребления памяти в 8 раз

Gefen позиционируется как готовая замена оптимизатора AdamW, предлагающая восьмикратное снижение использования памяти во время обучения. Проект включает репозиторий GitHub по адресу ndvbd/Gefen и соответствующую исследовательскую статью на arXiv под идентификатором 2606.13894. Эта публикация подчеркивает потенциал Gefen в оптимизации эффективности использования ресурсов для рабочих процессов машинного обучения. Предоставленные исходные материалы содержат прямые ссылки на техническую документацию и кодовую базу для дополнительной проверки. В доступном тексте не приводятся дополнительные метрики производительности или сравнительные бенчмарки.

media Hugging Face Forums · 6 ч назад

Qwen3/Gemma3 пропускают маски внимания для батчей одинаковой длины в режиме CPU

Пользователь сообщил об ошибке в библиотеке text-embeddings-inference от Hugging Face, затрагивающей модели Qwen3 и Gemma3. Проблема возникает при выполнении инференса на процессорах с одновременными запросами, что приводит к значительному снижению точности. В частности, бэкенд Candle неправильно пропускает маски внимания для батчей, в которых все входные последовательности имеют одинаковую длину. Этот дефект ставит под угрозу надежность генерируемых эмбеддингов при таких условиях. Для решения проблемы автор подготовил pull request с исправлением, которое было тщательно протестировано на его локальных машинах. Ошибка подчеркивает потенциальные риски стабильности сервисов встраивания на основе CPU, обрабатывающих батчированные входные данные.

github llama.cpp · 8 ч назад

Релиз LLaMA.cpp b9784: оптимизации для операций MM на основе Hexagon и бинарники для разных платформ

LLaMA.cpp выпускает версию b9784 с существенными оптимизациями для операций MM на основе Hexagon, включая тайлинг весов 32x32, улучшенную обработку dyn.quant и единое управление параметрами ядра. В релизе представлены новые бинарники для macOS (arm64 и x64), iOS и нескольких архитектур Linux с поддержкой Vulkan, ROCm и OpenVINO.

github llama.cpp · 10 ч назад

llama.cpp выпускает b9782 с новыми бинарниками и поддержкой

llama.cpp выпускает версию b9782, включающую бинарники для macOS, Linux, Android, Windows и openEuler. В релизе добавлена поддержка Vulkan, OpenVINO, SYCL, ROCm и CUDA на нескольких архитектурах, с обновлённым интерфейсом и отключёнными функциями, такими как KleidiAI и поддержка openEuler.

lab Hugging Face Blog · 12 ч назад

NVIDIA NeMo AutoModel ускоряет настройку трансформеров

NVIDIA NeMo AutoModel обеспечивает более быструю настройку моделей трансформеров за счёт автоматизации выбора моделей и оптимизации. Он сокращает время разработки и повышает эффективность обучения больших языковых моделей на аппаратуре NVIDIA.

media r/LocalLLaMA · 12 ч назад

OpenAI и Broadcom презентуют чип для инференса на основе больших языковых моделей

Предварительные испытания показывают, что первый поколение чипа обеспечивает значительно лучшую производительность на ватт по сравнению с текущими решениями на переднем крае. Спроектированный с нуля для текущих и будущих больших языковых моделей, чип расширяет полную платформу OpenAI и будет внедрён на гигаваттном уровне в сотрудничестве с партнерами по центрам обработки данных на нескольких поколениях.

media r/LocalLLaMA · 13 ч назад

Важное обновление для владельцев Strix Halo+ от AMD: NPU теперь доступен для использования

NPU от AMD теперь полностью доступен для использования, что позволяет использовать гибридные AI-модели на устройствах Strix Halo+. Пользователи могут использовать режим гибридной работы для комбинирования производительности NPU и iGPU, при этом инструменты, такие как Lemonade, и официальная документация делают раннее тестирование доступным. Сообщество теперь обращает внимание на необходимость гибридных моделей, поддерживаемых MTP, для дальнейшего повышения производительности.

github llama.cpp · 13 ч назад

llama.cpp выпускает b9781 с поддержкой Vulkan и мультиплатформенностью

llama.cpp выпускает версию b9781, добавляя поддержку Vulkan для Linux и Windows, и расширяя поддержку на несколько архитектур, включая ARM64 и x64 на macOS, Linux, Android и Windows. В выпуске представлены сборки для CPU, CUDA, OpenVINO, SYCL и ROCm, а также доступен компонент интерфейса.

media r/LocalLLaMA · 14 ч назад

Применение хаков увеличивает скорость GLM5.2 с 2,5 до более чем 50 ток/с

Пользователь достиг более чем 50 токенов в секунду для GLM5.2 на своей системе GH200, объединив головку MTP из репозитория zai по FP8 с квантованной моделью AWQ-INT4 от CyanKiwi. Такой гибридный подход, реализованный через скрипт слияния и модифицированную версию vLLM, достиг максимальной скорости около 55 ток/с при 4-кратной конкуренции и около 45 ток/с при одиночной инференсе, с потоковым перемещением из ОЗУ в ОЗУ.

lab OpenAI News · 15 ч назад

OpenAI и Broadcom презентуют чип для инференса больших языковых моделей

OpenAI и Broadcom представили чип Jalapeño, разработанный специально для инференса больших языковых моделей. Чип направлен на повышение производительности, эффективности и масштабируемости в системах искусственного интеллекта.

media r/LocalLLaMA · 16 ч назад

Gemma 4 26BA4B странно полезен при IQ3_S

Пользователь сообщает, что Gemma 4 26B, квантованная до Q3, работает со скоростью 25 токенов в секунду на MacBook Air и выполняет почти так же хорошо, как bf16 для задач, не связанных с кодированием и вызовом инструментов. Они спрашивают, отражает ли эта производительность искажение суждения или действительно ли малые квантованные модели могут быть полезны.

media r/LocalLLaMA · 16 ч назад

Какие инструменты используют люди для оценки VRAM и RAM для локальных LLM?

Пользователи отмечают, что hf-accelerate's model-memory-usage и NyxKrage's LLM VRAM Calculator являются распространенными инструментами для оценки потребностей в VRAM и RAM. Инструмент NyxKrage отмечен как KV-cache-сознательный и настраиваемый с параметрами квантования и длины контекста, хотя результаты могут варьироваться в зависимости от моделей и движков, таких как llama.cpp или vLLM, из-за поведения квантования и кэширования.

media r/LocalLLaMA · 18 ч назад

обновления llama.cpp: модели Granite-Speech, LFM2.5-ColBERT, улучшения в бэкенде Vulkan

llama.cpp теперь поддерживает модели granite-speech-4.1-2b-plus и LFM2.5-ColBERT/Embedding-350M. В улучшениях бэкенда Vulkan включены поддержка 3D-конволюций, операций с выравниванием, GET_ROWS_BACK и улучшенная числовая стабильность в слоях прямого распространения. Дополнительные улучшения охватывают улучшения интерфейса и покрытие тестов в бэкенде.

arxiv arXiv cs.LG · 18 ч назад

Резервуарное вычисление для обработки звуковых сигналов без извлечения признаков

В этой статье исследуется резервуарное вычисление как метод обработки звуковых сигналов без извлечения признаков. Показано, что параллельные глубокие архитектуры резервуаров превосходят более узкие и последовательные по точности, при этом сохраняя низкую сложность, что позволяет эффективно и с низким энергопотреблением обрабатывать звуковые сигналы с минимальной предобработкой.

github llama.cpp · 19 ч назад

Релиз LLaMA.cpp b9777 добавляет новые модели и бинарники для разных платформ

Релиз LLaMA.cpp b9777 добавляет модели LFM2.5-ColBERT-350M и LFM2.5-Embedding-357M. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и ускорения, такие как CUDA, Vulkan, OpenVINO и SYCL.

arxiv arXiv cs.LG · 19 ч назад

Fast-TurboQuant: Мультипликаторная-безопасная векторная квантование

Fast-TurboQuant представляет метод проекции без умножения, используя структурированный быстрый преобразователь Джонсона-Линдструса. Он заменяет плотные случайные матрицы вращения на инверсию фазы Радемахера и быстрое преобразование Валша-Хадамарда, что снижает арифметические операции до только сложений и улучшает Recall@10 с меньшей среднеквадратичной ошибкой.