Inference efficiency — korshunov.ai

Inference efficiency Страница 1 / 10

Встроенная рабочая среда ML для периферийных устройств на микроконтроллерах

В этой статье представлен системный подход к встраиваемому машинному обучению на устройствах класса микроконтроллера. В ней подробно описываются ключевые инженерные решения, такие как выбор образцов данных, извлечение признаков, проверка несбалансированности классов, совместный дизайн модели и режима работы, а также развертывание в потоке, используя примеры распознавания инерциальных движений и распознавания ключевых слов. Работа предоставляет практические правила проектирования надежного выполнения инференса на устройстве, включая кураторство данных, квантование, пороговые значения, планирование и мониторинг в полевых условиях.

arxiv arXiv cs.CL · 9 д назад

SwiftTrans повышает эффективность перевода кода на основе ЛЛМ

SwiftTrans решает проблемы эффективности во время выполнения в переводе кода на основе ЛЛМ, вводя Multi-Perspective Exploration и Difference-Aware Selection. Фреймворк расширяет CodeNet, F2SBench и вводит SwiftBench для оценки производительности во время выполнения, демонстрируя стабильное улучшение как по правильности, так и по эффективности на различных тестовых наборах.

media r/LocalLLaMA · 9 д назад

Кто-то не так давно провел соревнование по квантованию для Qwen3.6

Пост на Reddit содержит сравнение производительности квантования для Qwen3.6, где пользователь отмечает, что провел приблизительные математические вычисления по результатам. В посте присутствует визуальный график и ссылки на оригинальное изображение и комментарии.

media r/LocalLLaMA · 9 д назад

Количественный анализ производительности модели Qwen3.6

Пост на Reddit представляет количественный анализ производительности модели Qwen3.6 в уменьшенных вариантах точности (квантованных версиях). Автор отмечает приблизительное вычисление, согласно которому Qwen3.6 сохраняет сильную производительность даже при снижении глубины битов, хотя математика описывается как нестрогая и не строго подтвержденная.

media r/LocalLLaMA · 9 д назад

Я не знал, что возможно скомпилировать llamacpp для одновременной работы с CUDA и Vulkan

Пользователь скомпилировал llamacpp с поддержкой CUDA и Vulkan, чтобы использовать две видеокарты — w7800 и другую карту. Настройка обеспечила увеличение скорости декодирования на 10% для модели MiniMax-M3-UD-IQ2_M-00001-of-00004.gguf, с планами провести измерения для оценки реальных выигрышей в производительности.

media r/LocalLLaMA · 9 д назад

Minimax M3 (4-bit MLX) первоначальный бенчмарк на Mac Studio M3 с 512 ГБ

Minimax M3 (4-bit MLX) был протестирован на Mac Studio M3 с хранилищем на 512 ГБ. Результаты показывают показатели пропускной способности и задержки при различных размерах запросов, при пиковой производительности 269,1 ток/с для запросов размером 8192 токен и 172,8 ток/с для запроса размером 65 к токен, используя пиковое значение памяти 228 ГБ.

media r/LocalLLaMA · 9 д назад

Самый дешевый железо для Qwen 3.6: модели 27B и 35B-A3B

Пост на Reddit обсуждает экономичное железо для запуска моделей Qwen 3.6, как 27B, так и 35B-A3B, отмечая, что RTX 3090 24GB обеспечивает лучшее долгосрочное значение по сравнению с Tesla V100 из-за прекращения производства и появления китайских аналогов. Предлагаемая сборка составляет 1995,65 долларов, включая Ryzen 5 5600X, RTX 3 24GB и необходимые компоненты, с общей стоимостью, которая является ключевой проблемой для пользователей, стремящихся к доступности.

media r/LocalLLaMA · 10 д назад

Кто-нибудь запускает Qwen 3.6 27b UD Q8 на нескольких GPU?

Пользователь спрашивает, кто-нибудь успешно запускает Qwen 3.6 27b UD Q8 на нескольких GPU, отмечая проблемы с llamacpp и vllm. Модель крашится или зависает при многократных запросах, в llamacpp появляются ошибки CUDA, а vllm завершает работу на полпути, несмотря на то, что при Q5 квантовании всё работает хорошо.

github llama.cpp · 10 д назад

llama.cpp выпускает b96669 с поддержкой выбора в бэкенде для Eagle3

Версия llama.cpp b9669 добавляет поддержку выбора в бэкенде для Eagle3. Релиз включает бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения, включая Vulkan, CUDA, ROCm, OpenVINO и SYCL.

github llama.cpp · 10 д назад

llama.cpp Release b9670: Исправления и новые сборки

Релиз llama.cpp b9670 включает исправления для крайних случаев NVFP4 в llama-graph, таких как перемещение операций MUL после GEMM и ограничение build_ffn до поддерживаемых комбинаций. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах бэкенда, включая CUDA, Vulkan, SYCL и OpenVINO.

github llama.cpp · 10 д назад

llama.cpp Release b9667 Добавляет поддержку Vulkan и CUDA

llama.cpp release b9667 вводит поддержку Vulkan с S_v=16 через gated_delta_net. В него включены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах, с вариантами Vulkan, CUDA 12.4 и 13.3, ROCm, OpenVINO и SYCL.

media r/LocalLLaMA · 10 д назад

Результаты теста производительности квантования Qwen3.6 27B

Тест, сравнивающий версии квантования Q8 и IQ3 XXS turbo4 для Qwen3.6 27B, показывает, что Q8 превосходит в безопасности API и очистке входных данных, в то время как IQ3 XXS turbo4 демонстрирует лучшие результаты в управлении потоками и проектировании модульного кода. Модель рекомендует объединить оба подхода: использовать Q8 для начальной защиты и IQ3 XXS для атомарных записей и жизненного цикла потоков, формируя совместную фундаментальную стадию первого этапа.

github llama.cpp · 10 д назад

llama.cpp release b9665 добавляет флаг --offline и новые бинарные сборки

Версия llama.cpp b9665 вводит новый флаг --offline для бенчмаркинга. В релизе представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения, включая Vulkan, CUDA, ROCm, OpenVINO и SYCL.

github llama.cpp · 10 д назад

Релиз LLaMA.cpp b9663 добавляет поддержку SYCL и новые бинарные сборки

Релиз LLaMA.cpp b9663 добавляет поддержку OP EXPM1 и все тестовые случаи для FLOOR, TRUNC и ROUND. В него включены обновлённые бинарные файлы для macOS, Linux, Android, Windows и openEuler, с поддержкой SYCL (FP32 и FP16), Vulkan, CUDA 12.4 и 13.3, ROCm 7.2, а также обновлённый интерфейс.

github llama.cpp · 10 д назад

sycl: поддержка переставленных Q4_K/Q5_K/Q6_K MoE MUL_MAT_ID

Обновление sycl расширяет поддержку переставленного обработки экспертиз в MoE MUL_MAT_ID для Q4_K, Q5_K и Q6_K. Не поддерживаемые случаи перестановки 3D теперь переключаются, вместо того чтобы прерывать работу.

media r/LocalLLaMA · 10 д назад

Являются ли малыми локальными моделями для автоматизации вещи?

Пользователь Reddit утверждает, что малые, эффективные локальные LLM (от 1B до 4B параметров), встроенные в скрипты, могут обеспечить практическую автоматизацию повторяющихся задач. Он отмечает, что этот сценарий недостаточно представлен в обсуждениях, связанных с кодовыми помощниками или производительностью аппаратуры, что указывает на пробел в интересе или видимости сообщества к задаче-ориентированным, лёгким ИИ-моделям.

media r/LocalLLaMA · 10 д назад

Как неиспользующие Mac пользователи запускают DeepSeekV4 локально?

Пользователи, не использующие Mac, спрашивают, как запустить локально модели DeepSeekV4 flash или pro, и интересуются поддерживаемыми платформами, такими как CPU, CUDA или ROCm.

github llama.cpp · 10 д назад

Vulkan добавляет операцию col2im_1d и поддерживает несколько платформ

Релиз llama.cpp b9661 добавляет поддержку операции GGML_OP_COL2IM_1D для Vulkan, используя ограниченный цикл сборки вместо полного сканирования с модулем. Возвращает nullptr для неподдерживаемых типов и включает сборки для macOS, Linux, Android, Windows и openEuler на CPU, Vulkan, CUDA и SYCL.

media r/LocalLLaMA · 10 д назад

Какие преимущества предоставляет многомашинная настройка для локальных больших языковых моделей?

Пользователи спрашивают, предоставляют ли запуск нескольких машин параллельно преимущества для обработки больших контекстов или более быстрого инференса в локальных больших языковых моделях. Хотя отдельные машины могут обрабатывать большие контексты при достаточном объеме ОЗУ, не существует установленного прогресса, позволяющего получить значительные вычислительные преимущества от распределения инференса между несколькими машинами для локальных больших языковых моделей.

media r/LocalLLaMA · 10 д назад

Еще ли квантованные модели генерации изображений находятся в стадии разработки?

Пользователи отмечают непостоянные результаты при использовании квантованных моделей для генерации изображений, при этом SD 1.5 работает хорошо, а SDXL — нет. Несмотря на успешное преобразование и квантование с помощью инструментов, таких как convert.py и llama-quantize, некоторые пользователи получают плохие результаты, в то время как другие — нет, что вызывает вопросы относительно текущего состояния и надежности технологии квантованной генерации изображений.