Тема · Inference efficiency
github llama.cpp · 7 д назад

llama.cpp выпускает версию b9688 с новыми API и бинарниками для разных платформ

llama.cpp выпускает версию b9688, добавляя API для управления моделями и в реальном времени обновлений SSE. В релизе включены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и ускорения, такие как Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 7 д назад

Релиз LLaMA.cpp b9685 добавляет SYCL Dev2Dev Memcpy и несколько платформенных бинарных файлов

Версия LLaMA.cpp b9685 вводит функциональность dev2dev memcpy на основе SYCL, перемещая GGML_SYCL_DEV2DEV_MEMCPY в таблицу на уровне выполнения и улучшает обнаружение взаимодействия между процессами. В релизе представлены предварительно скомпилированные бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, ROCm, OpenVINO и SYCL (FP32/FP16).

github llama.cpp · 7 д назад

Релиз LLaMA.cpp b9684 добавляет Conv_3D и бинарники для нескольких платформ

Релиз LLaMA.cpp b9684 вводит новую операцию 3D-конволюции (conv_3d) и включает оптимизированные реализации. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения аппаратного обеспечения, включая SYCL, Vulkan, CUDA и OpenVINO.

github llama.cpp · 8 д назад

llama.cpp release b9682 добавляет поддержку Vulkan и новые бинарники для платформ

Версия llama.cpp b9682 добавляет поддержку Vulkan для Linux и Windows, что позволяет использовать ускорение GPU. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах, с вариантами CPU и GPU, включая CUDA, OpenVINO, SYCL и ROCm.

github llama.cpp · 8 д назад

llama.cpp release b9675 добавляет поддержку FP16 и новые бинарники для платформ

Версия llama.cpp b9675 включает поддержку FP16 для операций, таких как SQR, SQRT, LOG, SIN, COS и CLAMP. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах, с поддержкой Vulkan, ROCm, OpenVINO, SYCL (FP16 и FP32) и CUDA 12.4 и 13.3.

github llama.cpp · 9 д назад

llama.cpp Release b9670: Исправления и новые сборки

Релиз llama.cpp b9670 включает исправления для крайних случаев NVFP4 в llama-graph, таких как перемещение операций MUL после GEMM и ограничение build_ffn до поддерживаемых комбинаций. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах бэкенда, включая CUDA, Vulkan, SYCL и OpenVINO.

github llama.cpp · 9 д назад

llama.cpp release b9665 добавляет флаг --offline и новые бинарные сборки

Версия llama.cpp b9665 вводит новый флаг --offline для бенчмаркинга. В релизе представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения, включая Vulkan, CUDA, ROCm, OpenVINO и SYCL.

github llama.cpp · 9 д назад

Релиз LLaMA.cpp b9663 добавляет поддержку SYCL и новые бинарные сборки

Релиз LLaMA.cpp b9663 добавляет поддержку OP EXPM1 и все тестовые случаи для FLOOR, TRUNC и ROUND. В него включены обновлённые бинарные файлы для macOS, Linux, Android, Windows и openEuler, с поддержкой SYCL (FP32 и FP16), Vulkan, CUDA 12.4 и 13.3, ROCm 7.2, а также обновлённый интерфейс.

github llama.cpp · 9 д назад

Vulkan добавляет операцию col2im_1d и поддерживает несколько платформ

Релиз llama.cpp b9661 добавляет поддержку операции GGML_OP_COL2IM_1D для Vulkan, используя ограниченный цикл сборки вместо полного сканирования с модулем. Возвращает nullptr для неподдерживаемых типов и включает сборки для macOS, Linux, Android, Windows и openEuler на CPU, Vulkan, CUDA и SYCL.

arxiv arXiv cs.CL · 9 д назад

TokenPilot: Эффективное управление контекстом для агентов LLM

TokenPilot снижает расходы на инференс на 61% до 87% как в изолированном, так и в непрерывном режимах, превосходя предыдущие системы по эффективности расходов, при этом сохраняя конкурентные показатели производительности. Оно использует сжатие, учитывающее ввод, и эвакуацию, учитывающую жизненный цикл, для сохранения непрерывности кэша запросов и минимизации размера токенов.

arxiv arXiv cs.CL · 9 д назад

KVEraser: Эффективное локализованное удаление контекста в LLMs

KVEraser обеспечивает эффективное локализованное удаление контекста в больших языковых моделях, заменяя только состояния кэша KV для удаленного сегмента на обученные направляющие состояния. Он достигает почти полной переработки производительности на задачах в области знаний при длинах контекста от 1K до 32K, с ростом задержки только на 24%, и превосходит другие приближенные методы при работе с длинными документами в вопросах и ответах, обеспечивая скорость в 3-4 раза превышающую полную переработку.

media r/LocalLLaMA · 7 д назад

GLM-5.2-FP8 HGX-H200 SGLang Docker Deployment Config

Пользователь делится конфигурацией Docker для запуска GLM-5.2-FP8 на аппаратных средствах HGX-H200 с использованием SGLang. Настройка достигает длины контекста 262k и скорости 70 токенов в секунду при 8 параллелизме тензоров, используя долю памяти 0.83. Пользователь отмечает, что официальные рецепты vLLM не работают на H200 из-за ограничений квантования FP8 кэша KV на архитектуре DSV3.

media r/LocalLLaMA · 7 д назад

TRELLIS.2 теперь работает нативно на MLX

TRELLIS.2 был перенесён для нативной работы на MLX для процессоров Apple Silicon. Модель поддерживает входные изображения размером 512x512 и 1024x1024, время генерации составляет примерно 70 секунд для изображений 512x517 и от 300 до 700 секунд для изображений 1024x1024 на процессоре M4 Max с 128 ГБ единой памяти.

media Latent Space · 8 д назад

GLM-5.2 претендует на первое место в frontend-программировании с использованием спекулятивного декодирования

GLM-5.2, модель из 744B параметров от Z.ai, была оценена как лучшая модель для frontend-программирования в мире, превосходя все версии Opus, включая Opus 4.8. Этот результат подчеркивается третьими сторонами, которые подтверждают официальные оффлайн-тесты, что является значимым достижением для модели такого размера, особенно в конкурентной области frontend-программирования.

arxiv arXiv cs.LG · 8 д назад

S4oP: метод прямого сокращения на уровне операторов для эффективной развертывания SSM

S4oP вводит метод постепенного сокращения на уровне операторов для моделей S4 и S4D, что позволяет снизить стоимость инференса на 70% при сохранении производительности прогнозирования. Метод объединяет структурированное маскирование с мелкой настройкой и одновременно отслеживает точность и задержку, что обеспечивает эффективное развертывание SSM на устройствах с ограниченными ресурсами.