Inference efficiency — korshunov.ai

Inference efficiency Страница 8 / 9

Переменные ширинные трансформеры превосходят однородные архитектуры

Новая архитектура трансформера в форме креста распределяет разную ширину слоев, расширяя ранние и поздние слои, при этом сужая средние. Это приводит к уменьшению средней ширины слоя, что позволяет сократить количество FLOP на 22% и объемы кэша KV на 15%, при этом превосходя однородные базовые модели по потере при моделировании языка в диапазоне от 200 миллионов до 2 миллиардов параметров.

arxiv arXiv cs.LG · 8 д назад

MGUP: Моментум-Градиентное Согласование для Селективной Оптимизации

MGUP вводит механизм селективного обновления, при котором применяются большие шаги обновления к фиксированному проценту параметров в стохастической оптимизации, в то время как остальные параметры обновляются с меньшими, ненулевыми шагами. MGUP интегрируется без проблем с оптимизаторами, такими как AdamW, Lion и Muon, обеспечивая теоретические гарантии сходимости для MGUP-AdamW и демонстрируя превосходную или более стабильную производительность при обучении больших языковых моделей и задачах предобучения MAE.

arxiv arXiv cs.LG · 8 д назад

AoiZora: оптимизация автоматического параллелизма с учётом топологии для инференса диффузии видео

AoiZora — это планировщик топологии, реализованный на уровне компиляции, который повышает скорость инференса диффузии видео с низкой задержкой на подсрезах ТПУ. Благодаря синхронизации логического разбиения с физическим размещением в процессе компиляции, AoiZora снижает задержку одного шага деноизирования на подсрезах ТПУ v5e до 1,42 раза по сравнению с существующими методами.

arxiv arXiv cs.AI · 8 д назад

S4oP: метод прямого упрощения на уровне оператора для эффективной развертывания SSM

S4oP вводит метод постепенного упрощения на уровне оператора для моделей S4 и S4D, снижая стоимость инференса на 70% при сохранении производительности. Подход объединяет структурированное маскирование с мелкой настройкой и одновременно отслеживает точность и задержку, что позволяет эффективно развертывать SSM на устройствах с ограниченными ресурсами.

arxiv arXiv cs.AI · 8 д назад

Тернарный Мамба: Предобученная QAT для эффективного сжатия SSM

Тернарный Мамба достигает сжатия Мамба-2 в 3,61 раза с помощью групповой квантовой тренировки в предобученном состоянии, снижая память с 2687 до 744 МБ. При использовании только 102 млн токенов и 4 часов на 4 GPU достигается точность 48,1% без подсчета, что соответствует Би-Мамбе с погрешностью 0,9 процентных пунктов, при этом выявляется новая нестабильность, связанная с обучаемыми масштабами квантования и накоплением ошибок в рекурсии.

arxiv arXiv cs.AI · 8 д назад

Встроенная рабочая среда ML для периферийных устройств на микроконтроллерах

В этой статье представлен системный подход к встраиваемому машинному обучению на устройствах класса микроконтроллера. В ней подробно описываются ключевые инженерные решения, такие как выбор образцов данных, извлечение признаков, проверка несбалансированности классов, совместный дизайн модели и режима работы, а также развертывание в потоке, используя примеры распознавания инерциальных движений и распознавания ключевых слов. Работа предоставляет практические правила проектирования надежного выполнения инференса на устройстве, включая кураторство данных, квантование, пороговые значения, планирование и мониторинг в полевых условиях.

arxiv arXiv cs.CL · 8 д назад

SwiftTrans повышает эффективность перевода кода на основе ЛЛМ

SwiftTrans решает проблемы эффективности во время выполнения в переводе кода на основе ЛЛМ, вводя Multi-Perspective Exploration и Difference-Aware Selection. Фреймворк расширяет CodeNet, F2SBench и вводит SwiftBench для оценки производительности во время выполнения, демонстрируя стабильное улучшение как по правильности, так и по эффективности на различных тестовых наборах.

media r/LocalLLaMA · 8 д назад

Кто-то не так давно провел соревнование по квантованию для Qwen3.6

Пост на Reddit содержит сравнение производительности квантования для Qwen3.6, где пользователь отмечает, что провел приблизительные математические вычисления по результатам. В посте присутствует визуальный график и ссылки на оригинальное изображение и комментарии.

media r/LocalLLaMA · 8 д назад

Количественный анализ производительности модели Qwen3.6

Пост на Reddit представляет количественный анализ производительности модели Qwen3.6 в уменьшенных вариантах точности (квантованных версиях). Автор отмечает приблизительное вычисление, согласно которому Qwen3.6 сохраняет сильную производительность даже при снижении глубины битов, хотя математика описывается как нестрогая и не строго подтвержденная.

media r/LocalLLaMA · 8 д назад

Я не знал, что возможно скомпилировать llamacpp для одновременной работы с CUDA и Vulkan

Пользователь скомпилировал llamacpp с поддержкой CUDA и Vulkan, чтобы использовать две видеокарты — w7800 и другую карту. Настройка обеспечила увеличение скорости декодирования на 10% для модели MiniMax-M3-UD-IQ2_M-00001-of-00004.gguf, с планами провести измерения для оценки реальных выигрышей в производительности.

media r/LocalLLaMA · 8 д назад

Minimax M3 (4-bit MLX) первоначальный бенчмарк на Mac Studio M3 с 512 ГБ

Minimax M3 (4-bit MLX) был протестирован на Mac Studio M3 с хранилищем на 512 ГБ. Результаты показывают показатели пропускной способности и задержки при различных размерах запросов, при пиковой производительности 269,1 ток/с для запросов размером 8192 токен и 172,8 ток/с для запроса размером 65 к токен, используя пиковое значение памяти 228 ГБ.

media r/LocalLLaMA · 8 д назад

Самый дешевый железо для Qwen 3.6: модели 27B и 35B-A3B

Пост на Reddit обсуждает экономичное железо для запуска моделей Qwen 3.6, как 27B, так и 35B-A3B, отмечая, что RTX 3090 24GB обеспечивает лучшее долгосрочное значение по сравнению с Tesla V100 из-за прекращения производства и появления китайских аналогов. Предлагаемая сборка составляет 1995,65 долларов, включая Ryzen 5 5600X, RTX 3 24GB и необходимые компоненты, с общей стоимостью, которая является ключевой проблемой для пользователей, стремящихся к доступности.

media r/LocalLLaMA · 9 д назад

Кто-нибудь запускает Qwen 3.6 27b UD Q8 на нескольких GPU?

Пользователь спрашивает, кто-нибудь успешно запускает Qwen 3.6 27b UD Q8 на нескольких GPU, отмечая проблемы с llamacpp и vllm. Модель крашится или зависает при многократных запросах, в llamacpp появляются ошибки CUDA, а vllm завершает работу на полпути, несмотря на то, что при Q5 квантовании всё работает хорошо.

github llama.cpp · 9 д назад

llama.cpp выпускает b96669 с поддержкой выбора в бэкенде для Eagle3

Версия llama.cpp b9669 добавляет поддержку выбора в бэкенде для Eagle3. Релиз включает бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения, включая Vulkan, CUDA, ROCm, OpenVINO и SYCL.

github llama.cpp · 9 д назад

llama.cpp Release b9670: Исправления и новые сборки

Релиз llama.cpp b9670 включает исправления для крайних случаев NVFP4 в llama-graph, таких как перемещение операций MUL после GEMM и ограничение build_ffn до поддерживаемых комбинаций. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах бэкенда, включая CUDA, Vulkan, SYCL и OpenVINO.

github llama.cpp · 9 д назад

llama.cpp Release b9667 Добавляет поддержку Vulkan и CUDA

llama.cpp release b9667 вводит поддержку Vulkan с S_v=16 через gated_delta_net. В него включены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах, с вариантами Vulkan, CUDA 12.4 и 13.3, ROCm, OpenVINO и SYCL.

media r/LocalLLaMA · 9 д назад

Результаты теста производительности квантования Qwen3.6 27B

Тест, сравнивающий версии квантования Q8 и IQ3 XXS turbo4 для Qwen3.6 27B, показывает, что Q8 превосходит в безопасности API и очистке входных данных, в то время как IQ3 XXS turbo4 демонстрирует лучшие результаты в управлении потоками и проектировании модульного кода. Модель рекомендует объединить оба подхода: использовать Q8 для начальной защиты и IQ3 XXS для атомарных записей и жизненного цикла потоков, формируя совместную фундаментальную стадию первого этапа.

github llama.cpp · 9 д назад

llama.cpp release b9665 добавляет флаг --offline и новые бинарные сборки

Версия llama.cpp b9665 вводит новый флаг --offline для бенчмаркинга. В релизе представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения, включая Vulkan, CUDA, ROCm, OpenVINO и SYCL.

github llama.cpp · 9 д назад

Релиз LLaMA.cpp b9663 добавляет поддержку SYCL и новые бинарные сборки

Релиз LLaMA.cpp b9663 добавляет поддержку OP EXPM1 и все тестовые случаи для FLOOR, TRUNC и ROUND. В него включены обновлённые бинарные файлы для macOS, Linux, Android, Windows и openEuler, с поддержкой SYCL (FP32 и FP16), Vulkan, CUDA 12.4 и 13.3, ROCm 7.2, а также обновлённый интерфейс.

github llama.cpp · 9 д назад

sycl: поддержка переставленных Q4_K/Q5_K/Q6_K MoE MUL_MAT_ID

Обновление sycl расширяет поддержку переставленного обработки экспертиз в MoE MUL_MAT_ID для Q4_K, Q5_K и Q6_K. Не поддерживаемые случаи перестановки 3D теперь переключаются, вместо того чтобы прерывать работу.