Inference efficiency
github llama.cpp · 8 д назад

Релиз LLaMA.cpp b9685 добавляет SYCL Dev2Dev Memcpy и несколько платформенных бинарных файлов

Версия LLaMA.cpp b9685 вводит функциональность dev2dev memcpy на основе SYCL, перемещая GGML_SYCL_DEV2DEV_MEMCPY в таблицу на уровне выполнения и улучшает обнаружение взаимодействия между процессами. В релизе представлены предварительно скомпилированные бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, ROCm, OpenVINO и SYCL (FP32/FP16).

github llama.cpp · 8 д назад

Релиз LLaMA.cpp b9684 добавляет Conv_3D и бинарники для нескольких платформ

Релиз LLaMA.cpp b9684 вводит новую операцию 3D-конволюции (conv_3d) и включает оптимизированные реализации. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения аппаратного обеспечения, включая SYCL, Vulkan, CUDA и OpenVINO.

media r/LocalLLaMA · 8 д назад

Создание бюджетных моделей, которые превосходят свои размеры благодаря умному управлению на Rust

Новый фреймворк на основе Rust позволяет малым языковым моделям достигать производительности, сравнимой с более крупными моделями, используя эффективное управление памятью и оптимизированные вычисления. Подход снижает требования к ресурсам без ущерба для точности, делая продвинутую ИИ доступным для сред с ограниченными ресурсами.

media r/LocalLLaMA · 8 д назад

TRELLIS.2 теперь работает нативно на MLX

TRELLIS.2 был перенесён для нативной работы на MLX для процессоров Apple Silicon. Модель поддерживает входные изображения размером 512x512 и 1024x1024, время генерации составляет примерно 70 секунд для изображений 512x517 и от 300 до 700 секунд для изображений 1024x1024 на процессоре M4 Max с 128 ГБ единой памяти.

media r/LocalLLaMA · 8 д назад

GLM 5.2 на 4x Sparks: разумно?

Пользователь спрашивает, возможно ли запуск GLM-5.2 на четырех чипах Ascend GX10 (DGX Sparks). Он уточняет вопрос о 4-битной квантовании с использованием 512 ГБ единой памяти и оценивает скорости обработки промптов и токенов вывода для длины контекста 100 тысяч токенов, отметив, что в интернете нет доступных данных по производительности.

github llama.cpp · 8 д назад

llama.cpp release b9682 добавляет поддержку Vulkan и новые бинарники для платформ

Версия llama.cpp b9682 добавляет поддержку Vulkan для Linux и Windows, что позволяет использовать ускорение GPU. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах, с вариантами CPU и GPU, включая CUDA, OpenVINO, SYCL и ROCm.

github llama.cpp · 9 д назад

llama.cpp release b9675 добавляет поддержку FP16 и новые бинарники для платформ

Версия llama.cpp b9675 включает поддержку FP16 для операций, таких как SQR, SQRT, LOG, SIN, COS и CLAMP. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах, с поддержкой Vulkan, ROCm, OpenVINO, SYCL (FP16 и FP32) и CUDA 12.4 и 13.3.

media Latent Space · 9 д назад

GLM-5.2 претендует на первое место в frontend-программировании с использованием спекулятивного декодирования

GLM-5.2, модель из 744B параметров от Z.ai, была оценена как лучшая модель для frontend-программирования в мире, превосходя все версии Opus, включая Opus 4.8. Этот результат подчеркивается третьими сторонами, которые подтверждают официальные оффлайн-тесты, что является значимым достижением для модели такого размера, особенно в конкурентной области frontend-программирования.

arxiv arXiv cs.LG · 9 д назад

S4oP: метод прямого сокращения на уровне операторов для эффективной развертывания SSM

S4oP вводит метод постепенного сокращения на уровне операторов для моделей S4 и S4D, что позволяет снизить стоимость инференса на 70% при сохранении производительности прогнозирования. Метод объединяет структурированное маскирование с мелкой настройкой и одновременно отслеживает точность и задержку, что обеспечивает эффективное развертывание SSM на устройствах с ограниченными ресурсами.

arxiv arXiv cs.LG · 9 д назад

Тернарный Мамба: эффективная QAT моделей SSM из предварительно обученных чекпоинтов

Тернарный Мамба достигает сжатия Мамба-2 в 3,61 раза с 2687 до 744 МБ с использованием групповой квантовой тренировки с дистилляцией знаний. Он достигает точности 48,1% на 7 задачах в 102 млн токенов, что соответствует Би-Мамбе с погрешностью 0,9 процентных пунктов, при этом избегая дорогостоящей с нуля тренировки.

media r/LocalLLaMA · 9 д назад

Оценки модифицированного V620 с прошивкой W6800 на eBay

Модифицированный V620 с прошивкой W6800 позволяет получить выход на mini-DisplayPort, но отключает некоторые вычислительные ядра, несмотря на более высокие частоты быстрой загрузки. Оценки показывают, что Vulkan превосходит ROCm в задачах по группам тензоров (TG), в то время как ROCm быстрее в обработке запросов (PP) при больших глубинах контекста, с существенными выигрышами в настройках Q4_K_XL.

media r/LocalLLaMA · 9 д назад

Самый дешевый способ запуска GLM 5.x локально без использования единых памяти

Пользователь исследует экономически обоснованные способы запуска GLM 5.x локально с использованием 4-битной квантования, таких как IQ4_XS, без зависимости от единых памяти. Возможные варианты включают настройки только на процессоре, такие как Sapphire Rapids ES с DDR5, распределение нагрузки между несколькими GPU или использование моделей аналогичного размера. Пользователь использует систему 5900X + 128 ГБ DDR4 + 7900XT 20 ГБ и успешно запускает Minimax 2.7 при Q4_K_S и Qwen 3.6 27B при IQ4_XS.

arxiv arXiv cs.CL · 9 д назад

ConSA: Управление спарсностью в гибридном внимании

ConSA представляет рамку, которая обучает оптимальное распределение внимания между полным и оконным вниманием с использованием регуляризации L0 и дополнительных лагранжевых ограничений. Он превосходит методы на основе правил, при этом оконное внимание (SWA) размещается в нижних слоях, а полное внимание (FA) концентрируется в блоках средних слоев, что наблюдается во всех масштабах моделей и уровнях спарсности.

arxiv arXiv cs.CL · 9 д назад

Переменные ширинные трансформеры превосходят однородные архитектуры

Новая архитектура трансформера в форме креста распределяет разную ширину слоев, расширяя ранние и поздние слои, при этом сужая средние. Это приводит к уменьшению средней ширины слоя, что позволяет сократить количество FLOP на 22% и объемы кэша KV на 15%, при этом превосходя однородные базовые модели по потере при моделировании языка в диапазоне от 200 миллионов до 2 миллиардов параметров.

arxiv arXiv cs.LG · 9 д назад

MGUP: Моментум-Градиентное Согласование для Селективной Оптимизации

MGUP вводит механизм селективного обновления, при котором применяются большие шаги обновления к фиксированному проценту параметров в стохастической оптимизации, в то время как остальные параметры обновляются с меньшими, ненулевыми шагами. MGUP интегрируется без проблем с оптимизаторами, такими как AdamW, Lion и Muon, обеспечивая теоретические гарантии сходимости для MGUP-AdamW и демонстрируя превосходную или более стабильную производительность при обучении больших языковых моделей и задачах предобучения MAE.

arxiv arXiv cs.LG · 9 д назад

AoiZora: оптимизация автоматического параллелизма с учётом топологии для инференса диффузии видео

AoiZora — это планировщик топологии, реализованный на уровне компиляции, который повышает скорость инференса диффузии видео с низкой задержкой на подсрезах ТПУ. Благодаря синхронизации логического разбиения с физическим размещением в процессе компиляции, AoiZora снижает задержку одного шага деноизирования на подсрезах ТПУ v5e до 1,42 раза по сравнению с существующими методами.

arxiv arXiv cs.AI · 9 д назад

S4oP: метод прямого упрощения на уровне оператора для эффективной развертывания SSM

S4oP вводит метод постепенного упрощения на уровне оператора для моделей S4 и S4D, снижая стоимость инференса на 70% при сохранении производительности. Подход объединяет структурированное маскирование с мелкой настройкой и одновременно отслеживает точность и задержку, что позволяет эффективно развертывать SSM на устройствах с ограниченными ресурсами.

arxiv arXiv cs.AI · 9 д назад

Тернарный Мамба: Предобученная QAT для эффективного сжатия SSM

Тернарный Мамба достигает сжатия Мамба-2 в 3,61 раза с помощью групповой квантовой тренировки в предобученном состоянии, снижая память с 2687 до 744 МБ. При использовании только 102 млн токенов и 4 часов на 4 GPU достигается точность 48,1% без подсчета, что соответствует Би-Мамбе с погрешностью 0,9 процентных пунктов, при этом выявляется новая нестабильность, связанная с обучаемыми масштабами квантования и накоплением ошибок в рекурсии.