Inference efficiency — korshunov.ai

Inference efficiency Страница 2 / 10

Релиз LLaMA.cpp b9784: оптимизации для операций MM на основе Hexagon и бинарники для разных платформ

LLaMA.cpp выпускает версию b9784 с существенными оптимизациями для операций MM на основе Hexagon, включая тайлинг весов 32x32, улучшенную обработку dyn.quant и единое управление параметрами ядра. В релизе представлены новые бинарники для macOS (arm64 и x64), iOS и нескольких архитектур Linux с поддержкой Vulkan, ROCm и OpenVINO.

arxiv arXiv cs.AI · 1 д назад

Геометрия-ориентированный онлайн-расписыватель для обслуживания больших языковых моделей

Новый алгоритм расписывания, Smallest Volume First (SVF), снижает задержку инференса больших языковых моделей за счёт оптимизации управления кэшем ключ-значение. Теоретический анализ показывает, что коэффициент конкуренции в худшем случае сократился с 48 до 5, при этом 1-битный SVF обеспечивает высокую производительность при минимальной информации. Оценки на моделях Llama-3.1 подтверждают улучшения как средней, так и хвостовой задержки, при этом подход был интегрирован в vLLM.

github llama.cpp · 2 д назад

llama.cpp выпускает b9782 с новыми бинарниками и поддержкой

llama.cpp выпускает версию b9782, включающую бинарники для macOS, Linux, Android, Windows и openEuler. В релизе добавлена поддержка Vulkan, OpenVINO, SYCL, ROCm и CUDA на нескольких архитектурах, с обновлённым интерфейсом и отключёнными функциями, такими как KleidiAI и поддержка openEuler.

lab Hugging Face Blog · 2 д назад

NVIDIA NeMo AutoModel ускоряет настройку трансформеров

NVIDIA NeMo AutoModel обеспечивает более быструю настройку моделей трансформеров за счёт автоматизации выбора моделей и оптимизации. Он сокращает время разработки и повышает эффективность обучения больших языковых моделей на аппаратуре NVIDIA.

media r/LocalLLaMA · 2 д назад

OpenAI и Broadcom презентуют чип для инференса на основе больших языковых моделей

Предварительные испытания показывают, что первый поколение чипа обеспечивает значительно лучшую производительность на ватт по сравнению с текущими решениями на переднем крае. Спроектированный с нуля для текущих и будущих больших языковых моделей, чип расширяет полную платформу OpenAI и будет внедрён на гигаваттном уровне в сотрудничестве с партнерами по центрам обработки данных на нескольких поколениях.

media r/LocalLLaMA · 2 д назад

Важное обновление для владельцев Strix Halo+ от AMD: NPU теперь доступен для использования

NPU от AMD теперь полностью доступен для использования, что позволяет использовать гибридные AI-модели на устройствах Strix Halo+. Пользователи могут использовать режим гибридной работы для комбинирования производительности NPU и iGPU, при этом инструменты, такие как Lemonade, и официальная документация делают раннее тестирование доступным. Сообщество теперь обращает внимание на необходимость гибридных моделей, поддерживаемых MTP, для дальнейшего повышения производительности.

github llama.cpp · 2 д назад

llama.cpp выпускает b9781 с поддержкой Vulkan и мультиплатформенностью

llama.cpp выпускает версию b9781, добавляя поддержку Vulkan для Linux и Windows, и расширяя поддержку на несколько архитектур, включая ARM64 и x64 на macOS, Linux, Android и Windows. В выпуске представлены сборки для CPU, CUDA, OpenVINO, SYCL и ROCm, а также доступен компонент интерфейса.

media r/LocalLLaMA · 2 д назад

Применение хаков увеличивает скорость GLM5.2 с 2,5 до более чем 50 ток/с

Пользователь достиг более чем 50 токенов в секунду для GLM5.2 на своей системе GH200, объединив головку MTP из репозитория zai по FP8 с квантованной моделью AWQ-INT4 от CyanKiwi. Такой гибридный подход, реализованный через скрипт слияния и модифицированную версию vLLM, достиг максимальной скорости около 55 ток/с при 4-кратной конкуренции и около 45 ток/с при одиночной инференсе, с потоковым перемещением из ОЗУ в ОЗУ.

lab OpenAI News · 2 д назад

OpenAI и Broadcom презентуют чип для инференса больших языковых моделей

OpenAI и Broadcom представили чип Jalapeño, разработанный специально для инференса больших языковых моделей. Чип направлен на повышение производительности, эффективности и масштабируемости в системах искусственного интеллекта.

media r/LocalLLaMA · 2 д назад

Gemma 4 26BA4B странно полезен при IQ3_S

Пользователь сообщает, что Gemma 4 26B, квантованная до Q3, работает со скоростью 25 токенов в секунду на MacBook Air и выполняет почти так же хорошо, как bf16 для задач, не связанных с кодированием и вызовом инструментов. Они спрашивают, отражает ли эта производительность искажение суждения или действительно ли малые квантованные модели могут быть полезны.

media r/LocalLLaMA · 2 д назад

Какие инструменты используют люди для оценки VRAM и RAM для локальных LLM?

Пользователи отмечают, что hf-accelerate's model-memory-usage и NyxKrage's LLM VRAM Calculator являются распространенными инструментами для оценки потребностей в VRAM и RAM. Инструмент NyxKrage отмечен как KV-cache-сознательный и настраиваемый с параметрами квантования и длины контекста, хотя результаты могут варьироваться в зависимости от моделей и движков, таких как llama.cpp или vLLM, из-за поведения квантования и кэширования.

media r/LocalLLaMA · 2 д назад

обновления llama.cpp: модели Granite-Speech, LFM2.5-ColBERT, улучшения в бэкенде Vulkan

llama.cpp теперь поддерживает модели granite-speech-4.1-2b-plus и LFM2.5-ColBERT/Embedding-350M. В улучшениях бэкенда Vulkan включены поддержка 3D-конволюций, операций с выравниванием, GET_ROWS_BACK и улучшенная числовая стабильность в слоях прямого распространения. Дополнительные улучшения охватывают улучшения интерфейса и покрытие тестов в бэкенде.

arxiv arXiv cs.LG · 2 д назад

Резервуарное вычисление для обработки звуковых сигналов без извлечения признаков

В этой статье исследуется резервуарное вычисление как метод обработки звуковых сигналов без извлечения признаков. Показано, что параллельные глубокие архитектуры резервуаров превосходят более узкие и последовательные по точности, при этом сохраняя низкую сложность, что позволяет эффективно и с низким энергопотреблением обрабатывать звуковые сигналы с минимальной предобработкой.

github llama.cpp · 2 д назад

Релиз LLaMA.cpp b9777 добавляет новые модели и бинарники для разных платформ

Релиз LLaMA.cpp b9777 добавляет модели LFM2.5-ColBERT-350M и LFM2.5-Embedding-357M. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и ускорения, такие как CUDA, Vulkan, OpenVINO и SYCL.

arxiv arXiv cs.LG · 2 д назад

Fast-TurboQuant: Мультипликаторная-безопасная векторная квантование

Fast-TurboQuant представляет метод проекции без умножения, используя структурированный быстрый преобразователь Джонсона-Линдструса. Он заменяет плотные случайные матрицы вращения на инверсию фазы Радемахера и быстрое преобразование Валша-Хадамарда, что снижает арифметические операции до только сложений и улучшает Recall@10 с меньшей среднеквадратичной ошибкой.

media Hugging Face Forums · 2 д назад

Лучшая модель для локальной работы и работы в Unity с MCP при 12 ГБ VRAM

Пользователь ищет лёгкую модель LLM, предназначенную для Unity 6.5 с MCP, работающую в пределах 12 ГБ VRAM. В настоящее время он использует бесплатные версии Cursor и Claude, однако считает их недостаточными, и спрашивает, существуют ли специализированные модели или альтернативные решения.

arxiv arXiv cs.CL · 2 д назад

Постериорная коррекция: быстрая генерация языка через любые порядки карт потоков

FMLM+ вводит постериорную коррекцию, стратегию, позволяющую адаптивную самокоррекцию во время инференса. Сочетая транспорт карт потока с маскирующими схемами шума, достигается высокая точность генерации языка при 32 раза меньшем количестве оценок без шума, что превосходит как MDM, так и FMLM по соотношению скорости и качества.

github llama.cpp · 2 д назад

llama.cpp release b9776 добавляет поддержку Vulkan и нескольких аппаратных платформ

Версия llama.cpp b9776 вводит поддержку Vulkan для Linux и Windows, а также варианты для CPU, OpenCL, CUDA и SYCL на macOS, Linux, Android и Windows. В выпуске также включена поддержка OpenVINO и ROCm, с интерфейсом, доступным в отдельном пакете.

arxiv arXiv cs.AI · 2 д назад

Адаптивное кэширование КВ на основе новизны и частоты использования для обслуживания моделей языковой обработки

Новый метод кэширования КВ динамически распределяет пространство кэша между блоками, недавно использованными и часто используемыми, чтобы повысить эффективность. Он повышает коэффициент попадания в кэш КВ на 10,8% и снижает время до первого токена на 12,6% на синтетических нагрузках, с ростом на 2,1% и 2,0% на задачах реальных разговоров.

arxiv arXiv cs.AI · 2 д назад

ACE-GS: Эффективная и точная 3D гауссовая сплата

ACE-GS представляет прогрессивную оптимизационную рамку, которая обеспечивает точную, компактную и эффективную 3D гауссовую сплату. Она позволяет ускорить обучение в 3,7 раза по сравнению с Speedy-Splat, обеспечивая улучшение PSNR на 0,89 дБ по сравнению с оригинальной 3DGS, при этом сохраняя высокую структурную схожесть и компактное представление сцены.