Inference efficiency — korshunov.ai

Inference efficiency Страница 1 / 10

HyperQuant: конвейер квантования, оптимизированный по критерию «скорость-искажение», для больших языковых и диффузионных моделей

HyperQuant — это унифицированный конвейер постобучающего квантования, предназначенный для весов и KV-кэша больших языковых и диффузионных трансформеров, сочетающий преобразования Хадамара с оптимальным решетчатым квантованием. Метод превосходит недавние схемы, такие как HIGGS, TurboQuant и OCTOPUS, при различных скоростях битрейта, сохраняя качество, близкое к безпотерьному.

arxiv arXiv cs.AI · 11 ч назад

GRINQH: Иерархия квантования на основе градации входных данных для эффективной генерации LLM

Исследователи предлагают GRINQH, фреймворк постобучающего квантования только весов, который ускоряет декодирование больших языковых моделей за счёт объединения квантования и разреженности. Метод использует величины активаций для динамического назначения каналов весов различным уровням точности, что решает проблему ограниченности памяти на этапе декодирования.

media r/LocalLLaMA · 11 ч назад

LFM2.5 230M работает в браузере со скоростью 1400 токенов/с благодаря пользовательским WebGPU-ядрам

Модель LiquidAI LFM2.5-230M теперь работает локально в браузере с использованием пользовательских WebGPU-ядер. Эти специализированные ядра изначально были разработаны компанией Fable 5 до её закрытия, а также Opus 4.8. Демонстрация была записана на устройстве M4 Max, показав скорость генерации 1400 токенов в секунду. Вся обработка происходит полностью в среде браузера пользователя без внешних серверных зависимостей. Версия модели в формате GGUF доступна для загрузки на Hugging Face вместе со стандартным чекпоинтом. Пользователи могут взаимодействовать с живой демонстрацией, размещённой webml-community на Hugging Face Spaces.

arxiv arXiv cs.AI · 13 ч назад

Потребление энергии при тонкой настройке трансформеров: Масштабируемая модель, вдохновленная концепцией roofline

Авторы представляют фреймворк для моделирования энергопотребления обучения трансформеров на нескольких GPU, отвечая на потребность в устойчивом проектировании систем по мере роста вычислительных затрат. Проводя контролируемые архитектурные исследования на моделях BERT, они связывают измеренное энергопотребление с легковесными прокси-величинами для вычислений, трафика памяти и эффективности оборудования. Подход вдохновлен моделями roofline и включает фактор эффективности оборудования, основанный на ускорении, чтобы учесть тензорный параллелизм и полностью фрагментированный параллелизм данных (fully sharded data parallelism). Эта методология позволяет вывести модель закона масштабирования, которая точно предсказывает энергопотребление обучения в гетерогенных конфигурациях. Работа подчеркивает критическую важность прогнозирования энергопотребления по мере роста размера модели и масштаба параллелизма. Она предоставляет практический инструмент для проектирования с учетом затрат в системах обработки естественного языка крупного масштаба.

arxiv arXiv cs.AI · 13 ч назад

Kamera: Обучение не требующий позиционно-инвариантный мультимодальный KV-кэш для эффективного повторного использования

Авторы представляют Kamera, метод, обеспечивающий повторное использование мультимодальных ключ-значительных (KV) кэшей без обучения путем устранения потери межчунковой условной зависимости при наивном префиксном кэшировании. Стандартное слияние состояний восстанавливает прямые выводы, но не сохраняет диффузный остаток низкого ранга в глубоких слоях, необходимый для многошагового рассуждения, что снижает точность вдвое. Для устранения этой проблемы Kamera хранит небольшой тренировочный патч условной зависимости низкого ранга рядом с каждым позиционно-свободным чунком. Этот подход позволяет точно выполнять повторное вращение RoPE и восстанавливать межчунковую привязку в механизмах внимания MLA, GQA и MHA. Система поддерживает дешевые операции перестановки, выживания скользящего окна и поиска без необходимости перекодирования вытесненных чунков. Эксперименты показывают, что патч ранга-m восстанавливает полную точность задачи на бенчмарках межчунковой привязки, таких как MM-NIAH и двухстраничная документальная QA. Решение реконструирует KV для повторного префилла с точностью до округления bf16 в производственном ядре SGLang для шести бэкбонов, сохраняя лишь долю исходного объема KV.

media r/LocalLLaMA · 14 ч назад

llama.cpp b9788 добавляет поддержку разделения тензоров SYCL для GPU Intel

Проект llama.cpp выпустил версию b9788, которая внедряет поддержку опции --split-mode для тензоров в бэкенде SYCL. Это обновление специально ориентировано на пользователей, выполняющих инференс на графических процессорах Intel. Функция реализована через pull request #24152 в репозитории ggml-org. Она позволяет разделять тензоры модели между несколькими устройствами, а не полагаться исключительно на распределение по слоям. В примечаниях к выпуску прямо приглашаются пользователи с конфигурациями из двух GPU Intel протестировать новую функциональность. Разработчикам предлагается предоставить бенчмарки производительности для подтверждения улучшений. Это дополнение направлено на повышение эффективности использования нескольких GPU для совместимых конфигураций оборудования Intel.

media r/LocalLLaMA · 14 ч назад

GLM 5.2 работает со скоростью 12 токенов/с на аппаратной платформе с двумя RTX 5090

Пользователь протестировал квантованную версию unsloth для GLM 5.2 на высокопроизводительной потребительской рабочей станции, оснащённой двумя GPU RTX 5090 и процессором Threadripper Pro на архитектуре Zen5. В системе использовалось 512 ГБ оперативной памяти DDR5 ECC, а конфигурация включала специфические флаги компиляции llama.cpp для активации оптимизаций CUDA и обработки единого адресного пространства (unified memory). Веса модели были загружены из квантования UD-Q5_K_S, что составило примерно 492 ГБ в совокупности по нескольким GGUF-файлам. Тестирование производительности включало запуск llama-server с размером контекста 32768 токенов и специфическими параметрами потоков для изоляции NUMA. Результаты бенчмарка стабильно показывали скорость вывода в 12 токенов в секунду во время чат-взаимодействий без использования агентных рабочих процессов. Дополнительные эксперименты выявили, что исключение некоторых флагов оптимизации, таких как flash attention или настройки NUMA, приводило к незначительным изменениям пропускной способности.

media r/LocalLLaMA · 19 ч назад

Сэмплер и верификатор с возвратом назад кардинально улучшают производительность маленьких моделей в задачах программирования

Новый сэмплер с возвратом назад, объединенный с моделью-верификатором, значительно повышает качество кодогенерации у крошечных моделей объемом 0.5B параметров, потенциально делая их конкурентоспособными по сравнению с моделями класса 2–4B без изменения весов. Этот подход теоретически решает проблему галлюцинаций в больших моделях за счет исправления ошибок во время генерации путем повторного сэмплирования. Однако данный метод приводит к снижению скорости декодирования на 5–30% из-за необходимости выполнения обратных проходов и требует обучения модели-верификатора, сопоставимой по размеру с исходной. Это требование удваивает использование VRAM и увеличивает вычислительные затраты в 1,5–3 раза по сравнению со стандартным инференсом. Несмотря на эти издержки, верификатор обобщается на модели равного или меньшего веса, если он обучен на разнообразных распределениях данных. Обучение верификатора очень эффективно и требует лишь около 0,01% от объема токенов, используемых для полного предварительного обучения.

media r/LocalLLaMA · 19 ч назад

NVIDIA выпустила Nemotron-TwoTower-30B-A3B — языковую модель на основе диффузии

Компания NVIDIA выпустила модель Nemotron-TwoTower-30B-A3B-Base-BF16, построенную на базе Nemotron 3 Nano 30B-A3B. Эта архитектура отличается от стандартных авторегрессионных моделей за счет использования замороженной контекстной башни вместе с башней диффузионного шумоподавления. Система итеративно заполняет блоки токенов параллельно, а не генерирует их строго по одному. По словам NVIDIA, эта настройка маски-диффузии по умолчанию сохраняет 98,7% совокупного качества бенчмарков, характерного для авторегрессионной базовой модели. При сохранении высокого качества модель достигает в 2,42 раза большей пропускной способности генерации во времени выполнения. В релизе подчеркивается новый подход к языковому моделированию, сочетающий техники диффузии с возможностями больших языковых моделей.

media r/LocalLLaMA · 19 ч назад

GLM 5.2 на конфигурации с двумя Strix Halo (256 ГБ): стоит ли того?

Пользователь Reddit под именем Intrepid_Rub_3566 опубликовал видеообзор, оценивающий производительность GLM 5.2 в конфигурации с двумя процессорами AMD Strix Halo и 256 ГБ оперативной памяти. Обсуждение сосредоточено на том, обеспечивает ли данная конкретная аппаратная конфигурация достаточную ценность для локального вывода больших языковых моделей. Материал подчеркивает техническую возможность развертывания GLM 5.2 в такой среде, уделяя внимание использованию ресурсов и скорости. Зрителям предлагается перейти по ссылке на YouTube для получения подробных бенчмарков и метрик производительности. В теме также присутствуют комментарии сообщества, обсуждающие практическую применимость и рентабельность такого подхода с использованием двух GPU.

media r/LocalLLaMA · 19 ч назад

Пользователи сообщают о снижении качества и эффективности моделей MTP в Qwen 3.6 и Gemma 4

Пользователь, тестирующий самохостинговые модели Qwen 3.6 27B и Gemma 4 на четырех видеокартах RTX 5070 Ti, сообщает, что многозадачное предсказание токенов (MTP) ухудшает качество вывода по сравнению с вариантами без MTP. При задачах рецензирования кода модель без MTP выдавала более детальные результаты с предложениями по исправлению, потребляя меньше токенов, чем её аналог с MTP. Метрики производительности показали, что конфигурация без MTP достигала примерно 2000 обрабатываемых токенов промпта в секунду и скорости генерации 50-60 токенов в секунду. Напротив, конфигурация MTP обеспечивала более высокую скорость генерации 100-120 tg/s, но более низкую скорость обработки промптов около 1300 pp/s. Несмотря на более высокую пропускную способность генерации, реальное время выполнения задач агентами было ускорено с помощью MTP всего на 20% из-за увеличенного потребления контекста. Пользователь использовал llama.cpp со специфичными GGUF-файлами от Unsloth и отметил аналогичный негативный опыт при тестировании Gemma 4.

media r/LocalLLaMA · 19 ч назад

Разработчик просит протестировать поддержку MTP для GLM-4.7-Flash через llama.cpp

Разработчик ищет помощь сообщества для тестирования поддержки многозадачного прогнозирования (MTP) модели GLM-4.7-Flash в рамках фреймворка llama.cpp. Автор признаёт, что предыдущие модели, такие как GLM Air и GLM Flash, устарели, но выражает личный интерес к включению MTP для них. Запрос ориентирован на пользователей, обладающих необходимым оборудованием для запуска GLM-4.7-Flash и техническими навыками компиляции llama.cpp из исходного кода. Участникам предлагается оценить функциональность предоставленной модели GGUF и сообщить о любых возникших проблемах. Кроме того, тестировщикам поручено измерить и поделиться показателями прироста скорости производительности, достигнутого благодаря внедрению MTP. Разработчик загрузил тестовую модель в репозиторий Hugging Face для немедленного доступа. Пользователям, нуждающимся в меньших вариантах квантования, предлагается связаться с автором напрямую для получения альтернативных версий.

github llama.cpp · 20 ч назад

llama.cpp b9788 добавляет параллелизм тензоров по SYCL для конфигураций с двумя GPU

В релизе llama.cpp b9788 добавлена поддержка параллелизма тензоров через флаг --split-mode tensor в бэкенде SYCL. Эта реализация обеспечивает взаимодействие между двумя GPU путём добавления функций comm_init, comm_free и comm_allreduce_tensor в мета-бэкенд. Для двух устройств используется стратегия ring all-reduce, которая переключается между прямым копированием FP32 для малых тензоров и сжатием BF16 для больших. Код избегает использования OneCCL из-за его ограничения на один процесс на устройство, вместо этого применяя постоянные буферы для сохранения инвариантов пула SYCL. Тесты производительности на двух GPU Intel Arc Pro B70 показали значительное ускорение по сравнению с режимом слоёв для моделей Llama-3.3-70B и Qwen3-Coder-Next-80B-A3B. Обновление включает новые бинарные файлы для macOS, Linux, Windows, Android и openEuler для целевых платформ CPU, CUDA, ROCm, Vulkan и SYCL.

media r/LocalLLaMA · 22 ч назад

Запрос на Reddit о запуске больших моделей с 4–8 видеокартами RTX 6000 PRO

Пользователь Reddit ищет отзывы сообщества относительно производительности больших языковых моделей на системах, оснащённых четырьмя или восемью графическими процессорами NVIDIA RTX 6000 PRO. Запрос ориентирован в первую очередь на пользователей, располагающих от 384 ГБ до 768 ГБ видеопамяти для запуска таких моделей, как GLM 5.2, Kimi 2.7 и DeepSeek V4 Pro. Автор отмечает, что хотя эти модели технически могут работать при 4-битном квантовании, они могут не помещаться в доступный объём памяти при использовании 8-битной точности. Он ссылается на репозиторий с бенчмарками, но указывает, что в нём отсутствуют данные по самым последним релизам моделей. Один из ключевых вопросов касается того, насколько существенна деградация производительности при переходе от 4-битного к 8-битному квантованию и может ли это повлиять на выполнение агентных задач или задач программирования. Пользователь также спрашивает, какие бэкенды для инференса, такие как vLLM или SGLang, в настоящее время используются другими людьми при данной конфигурации оборудования.

arxiv arXiv cs.CL · 1 д назад

BITEMBED: Экстремально низкоразрядная архитектура для текстовых эмбеддингов на основе LLM

В статье представлен BITEMBED — экстремально низкоразрядная архитектура, предназначенная для решения проблемы высоких затрат на развертывание текстовых эмбеддеров на основе больших языковых моделей (LLM) за счет оптимизации как эффективности кодирования, так и хранения векторов. Метод преобразует предварительно обученные базовые архитектуры LLM в энкодеры типа BitNet с тернарными весами, квантованными активациями и легковесной настройкой нормализации. Для адаптации этих моделей к задачам обучения представлений BITEMBED использует непрерывное контрастивное предобучение, за которым следует контролируемое контрастивное дообучение. Этот процесс дообучения применяет дистилляцию распределения сходства и дистилляцию отношений внимания от полноточной учительской модели. Помимо квантования базовой архитектуры, архитектура обучает выходные эмбеддинги поддерживать несколько точностей хранения, что позволяет гибко балансировать между производительностью и затратами на хранение. Эксперименты на бенчмарке MMTEB с использованием Qwen3-0.6B и Gemma3-270M демонстрируют, что BITEMBED по своим характеристикам в значительной степени сопоставим с полноточными учительскими эмбеддерами.

github llama.cpp · 1 д назад

Выпуск llama.cpp b9785 с усиленной проверкой флагов и бинарными файлами для нескольких платформ

Проект llama.cpp выпустил версию b9785, включающую изменение кода для усиления проверки флагов, как подробно описано в pull request #24973. Это обновление предоставляет предварительно собранные бинарные файлы для macOS Apple Silicon, Mac на базе Intel и iOS через XCFramework, при этом поддержка KleidiAI отключена на Apple Silicon. Поддерживаются дистрибутивы Linux, включая Ubuntu, для CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL-бэкендов на архитектурах x64, arm64 и s390x. Пользователи Android могут получить доступ к бинарным файлам CPU для arm64, а Windows предлагает широкий выбор вариантов: CPU, OpenCL Adreno, CUDA 12 и 13, Vulkan, OpenVINO, SYCL и HIP. В релиз также включены сборки для openEuler, ориентированные на процессоры x86 и aarch64 с поддержкой ACL Graph. Рядом с платформо-специфичными выпусками доступен автономный пакет UI для облегчения локального вывода моделей.

media r/LocalLLaMA · 1 д назад

Выпущены несексуризированные сбалансированные Gemma4-26B-A4B и 31B-QAT со ускорением за счёт MTP

HauhauCS выпустил две новые несексуризированные сбалансированные версии моделей Gemma 4: Gemma4-26B-A4B и Gemma4-31B-QAT. Оба варианта включают черновики для многозапросного предсказания (MTP) для обеспечения спекулятивного декодирования, что приводит к значительному ускорению вывода. Модель 26B-A4B демонстрирует примерно 35% прирост скорости, а модель 31B — увеличение на 53%, при этом качество вывода остаётся идентичным благодаря механизму черновиков модели. Эти релизы используют квантование, учитывающее QAT, что делает формат Q4_K_M оптимальным, поскольку более высокая точность не даёт улучшения качества для этих конкретных моделей. Модель 26B-A4B представляет собой архитектуру Mixture of Experts с примерно 4 миллиардами активных параметров на токен, тогда как вариант 31B является плотной моделью, предлагающей более высокие возможности для пользователей с достаточным объёмом VRAM. Обе модели поддерживают работу с изображениями через файлы mmproj и сохраняют контекстное окно длиной 262K токенов. Автор отмечает, что тестирование GenRM не выявило ни одного отказа в ответе на 465 запросов, подтверждая их несексуризированный характер.

media r/LocalLLaMA · 1 д назад

GLM-5.2 на 4x DGX Spark: Восстановление недостающих шагов сборки для MTP спекулятивного декодирования

Автор успешно развернул GLM-5.2 со спекулятивным декодированием MTP на кластере из четырех узлов NVIDIA GB10 (DGX Spark), достигнув скорости около 9,4 токенов в секунду. Эта конфигурация использует vLLM с тензорным параллелизмом, портированные ядра Triton для разреженного MLA и детерминированное отсечение 15% экспертов для размещения весов AWQ-INT4. Ключевым выводом стало то, что исходные инструкции по сборке Docker-образа неполны, что требует восстановления недостающих патчей для файлов deep_gemm.py и sparse_attn_indexer.py. Автор также выявил, что использование любой версии vLLM, отличной от конкретного зафиксированного коммита, приводит к падению загрузки реальных весов AWQ из-за ошибок CUDA. Для воспроизведения среды пользователям необходимо применить пользовательский скрипт, который внедряет ядра и маршрутизирует функции в fallback-решения для sm12x. Преимущества производительности включают примерно двукратное увеличение скорости по сравнению с предыдущими реализациями llama.cpp, хотя пропускная способность между узлами остается узким местом для масштабирования с использованием двойных шин (dual-rail).

media r/LocalLLaMA · 1 д назад

Gefen: готовая замена AdamW с заявленным снижением потребления памяти в 8 раз

Gefen позиционируется как готовая замена оптимизатора AdamW, предлагающая восьмикратное снижение использования памяти во время обучения. Проект включает репозиторий GitHub по адресу ndvbd/Gefen и соответствующую исследовательскую статью на arXiv под идентификатором 2606.13894. Эта публикация подчеркивает потенциал Gefen в оптимизации эффективности использования ресурсов для рабочих процессов машинного обучения. Предоставленные исходные материалы содержат прямые ссылки на техническую документацию и кодовую базу для дополнительной проверки. В доступном тексте не приводятся дополнительные метрики производительности или сравнительные бенчмарки.

media Hugging Face Forums · 1 д назад

Qwen3/Gemma3 пропускают маски внимания для батчей одинаковой длины в режиме CPU

Пользователь сообщил об ошибке в библиотеке text-embeddings-inference от Hugging Face, затрагивающей модели Qwen3 и Gemma3. Проблема возникает при выполнении инференса на процессорах с одновременными запросами, что приводит к значительному снижению точности. В частности, бэкенд Candle неправильно пропускает маски внимания для батчей, в которых все входные последовательности имеют одинаковую длину. Этот дефект ставит под угрозу надежность генерируемых эмбеддингов при таких условиях. Для решения проблемы автор подготовил pull request с исправлением, которое было тщательно протестировано на его локальных машинах. Ошибка подчеркивает потенциальные риски стабильности сервисов встраивания на основе CPU, обрабатывающих батчированные входные данные.