Hardware & chips
media r/LocalLLaMA · 5 ч назад

Восстановленный док-станция MINISFORUM DEG1 Oculink для eGPU доступна за $59

Восстановленная версия док-станции MINISFORUM DEG1 Oculink для внешних видеокарт (eGPU) сейчас доступна по цене 59 долларов. В описании товара подчеркивается ее прочная конструкция: устройство обладает достаточной массой, чтобы надежно удерживать видеокарту. В отличие от некоторых более дешевых аналогов, данная док-станция оснащена редрайверами (redrivers) для обеспечения целостности сигнала. Пользователь, купивший такое устройство в прошлом году, отметил положительный опыт использования, связанный с его производительностью и стабильностью. Товар можно приобрести напрямую на странице восстановленных продуктов производителя.

media r/LocalLLaMA · 5 ч назад

Вопрос о кластеризации Nvidia DGX Spark и AMD Ryzen AI Max 395 для вывода с использованием единой памяти

Пользователь спросил о возможности кластеризации Nvidia DGX Spark и AMD Ryzen AI Max 395 для запуска одной большой языковой модели. Оба устройства имеют 128 ГБ единой памяти, что обеспечивает потенциальную суммарную ёмкость около 256 ГБ за вычетом накладных расходов операционной системы. DGX Spark оснащён сетевым интерфейсом со скоростью 200 Гбит/с, тогда как система AMD Strix в настоящее время имеет только Ethernet на 5 Гбит/с, но включает слот PCIe Gen 4x4. Пользователь отметил, что DeepSeek v4 Flash может разместиться на двух DGX Spark, и поинтересовался, может ли Strix служить альтернативным узлом. Для улучшения подключения он предложил добавить в систему AMD адаптер Mellanox ConnectX-6 QSFP+28 для достижения более высокой пропускной способности канала.

media r/LocalLLaMA · 1 д назад

7 китайских компаний поставляют чипы класса H100/H200, большинство из которых были запущены в течение последних 6 месяцев

По крайней мере семь китайских компаний уже поставляют ускорители AI класса H100/H200, при этом большинство из них стали публичными в течение последних шести месяцев. Университет Ву в одиночку поставил 812 000 чипов AI в прошлом году, что составляет 49% от внутреннего спроса Китая, и его Ascend 950, по сообщениям, ориентирован на производительность класса H200. Несколько из этих компаний основаны бывшими лидерами NVIDIA и AMD в области чипов GPU, включая MetaX, чья выручка выросла в три раза за три года, и Alibaba, которая запустила сервер с объемом VRAM в 1,5 ТБ для развертывания передовых моделей на месте.

media MarkTechPost · 3 д назад

MoonMath AI опубликовал открытый исходный код ядра приставки внимания HIP, которое превосходит AITER v3 на MI300X

MoonMath AI опубликовал ядро прямого внимания в формате bf16 для графического процессора MI300X от AMD, написанное на языке HIP, а не на ассемблере. Оно превосходит ядро AITER v3 от AMD по всем проверенным форматам и режимам округления, обеспечивая ускорение до 1,26 раза, и сохраняет бит-точную числовую точность.

github llama.cpp · 5 д назад

llama.cpp release b9738: fixes CORS auth header forwarding and new binary builds

llama.cpp version b9738 исправляет прокси CORS для предотвращения передачи аутентификационных заголовков. В выпуске представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 5 д назад

Исправление индексатора DSA для GLM-5.2: тензоры помечены как не требуемые

Индексатор DSA для модели GLM-5.2 неправильно загружался на всех слоях, что приводило к сбоям из-за отсутствия тензоров. В обновлении тензоры индексатора помечаются как TENSOR_NOT_REQUIRED, что позволяет слоям без индексатора загружать как nullptr, обеспечивая полную работу внимания MLA. Модель DeepSeek-V3.2, имеющая единое индексирование, не затронута.

media r/LocalLLaMA · 5 д назад

AMD Будущие GPU для развертывания LLM

AMD объявил о новых GPU, которые могут поддерживать локальные развертывания больших языковых моделей (LLM). Эти GPU разработаны с повышенной пропускной способностью памяти и вычислительными возможностями, что делает их подходящими для эффективного выполнения инференса и обучения больших языковых моделей в отдельных локальных системах.

github llama.cpp · 5 д назад

Релиз LLaMA.cpp b9728 добавляет поддержку строк комментариев и бинарные файлы для нескольких платформ

Версия LLaMA.cpp b9728 вводит поддержку строк комментариев в конфигурации --api-key-file. В релизе представлены предварительно скомпилированные бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах аппаратного ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 5 д назад

EvoTensile: эволюционная настройка ядер AMD Tensile GEMM

EvoTensile использует эволюционные алгоритмы для настройки ядер GEMM для видеокарт AMD, повышая производительность размещения NT с 20 до 40 ТФЛОПС на Strix Halo. Это ускорение представляет собой значительный прогресс по сравнению с неоптимизированными ядрами, хотя и остается ниже теоретического предела в 59,4 ТФЛОПС.

github llama.cpp · 6 д назад

Релиз LLaMA.cpp b9715 добавляет поддержку CUDA Col2Im 1D и бинарные файлы для нескольких платформ

Версия LLaMA.cpp b9715 вводит поддержку CUDA для GGML_OP_COL2IM_1D, основанную на реализации на процессоре. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и ускорениях, включая Vulkan, ROCm, OpenVINO и SYCL.

arxiv arXiv cs.AI · 6 д назад

Гибридная система ANN-SNN с локальной пластичностью

Гибридная система ANN-SNN использует предобученные энкодеры EfficientNet и преобразует их активации в импульсные последовательности с помощью кодирования скорости. Система обучает спайковый классификатор CoLaNET с локальными правилами пластичности, достигая точности 99,09% на тестовом наборе ImageNet из 64 классов, что соответствует традиционным глубоким сетям.

arxiv arXiv cs.LG · 6 д назад

Квантовый кольцевой агрегат: преимущества в коммуникации и приватности для распределенной обучения

Квантовая версия кольцевого агрегата снижает коммуникацию по каждому соединению вдвое с использованием запутывания и суперплотного кодирования, не изменяя вычисления модели или градиентов. Она обеспечивает агрегацию с теоретической безопасностью с использованием подтвержденного запутывания, с избыточностью в 2 раза по копиям GHZ, и предоставляет экспоненциальные преимущества в обнаружении конфликтов градиентов для определенных задач аудита.

media r/LocalLLaMA · 6 д назад

Мой робот-сумка получает эффект от реального датчика газа

Реальный датчик газа MQ-2 обнаруживает дым и передает живые данные в LLM-сэмплер, корректируя температуру, top_p и top_k в реальном времени. По мере увеличения дыма речь робота становится более цикличной и ассоциативной, без заранее скриптового режима 'пьяного', демонстрируя живое поведение модели, вызванное физическим вводом.

github llama.cpp · 6 д назад

LLaMA.cpp Release b9698 Добавляет поддержку самоподписки и бинарники для нескольких платформ

Версия LLaMA.cpp b9698 позволяет включать самоподписку только при сборке с помощью llama-install.sh. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

arxiv arXiv cs.LG · 7 д назад

Нулевое влияние на мониторинг выявляет скрытые тренировки машинного обучения

Исследование оценивает классификацию нагрузки на GPU с использованием только мониторинга NVML с нулевым влиянием. Классификатор достигает точности 98,2% при идентификации нагрузок на обучение и точности от 43 до 87% при распознавании неожиданных, враждебно скрытых нагрузок на 9 моделей GPU.

arxiv arXiv cs.AI · 7 д назад

SwitchBraidNet: Легковесная модель EEG для гибридных БИС

SwitchBraidNet — это архитектура классификации EEG с учётом квантования, обеспечивающая высокую точность в задачах моторной имитации и SSVEP. Она превосходит четыре базовых варианта по точности в форматах FP16 и FP32: точность в задаче моторной имитации составляет 69,49%, точность в задаче SSVEP — 93,48%, а гибридная скорость передачи информации — 64,82 бита/мин в формате FP16. Модель работает эффективно и занимает всего 3,03 КБ памяти в формате INT8, что позволяет использовать её в низкоэнергетических встраиваемых системах.

github llama.cpp · 7 д назад

ggml-cpu: Включать бэкенд POWER11 условно в зависимости от поддержки компилятором

Проект ggml-cpu теперь условно включает бэкенд POWER11 в ggml в зависимости от поддержки компилятором опции -mcpu=power11. Это предотвращает сбои при сборке в текущих GCC/Clang инструментальных цепочках, при этом сохраняя совместимость с будущими версиями. Обновления CMakeLists.txt поддерживают это изменение, и для обоих архитектур P10 и P11 используется опция -mcpu=power10.

github llama.cpp · 7 д назад

llama.cpp Release b9692 Adds New Binaries and Fixes

llama.cpp версия b9692 вводит новые бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе включены обновления для поддержки Vulkan, ROCm, OpenVINO, SYCL и HIP, а также исправления, удаляющие использование размера батча в llava_uhd.

github llama.cpp · 7 д назад

Релиз LLaMA.cpp b9685 добавляет SYCL Dev2Dev Memcpy и несколько платформенных бинарных файлов

Версия LLaMA.cpp b9685 вводит функциональность dev2dev memcpy на основе SYCL, перемещая GGML_SYCL_DEV2DEV_MEMCPY в таблицу на уровне выполнения и улучшает обнаружение взаимодействия между процессами. В релизе представлены предварительно скомпилированные бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, ROCm, OpenVINO и SYCL (FP32/FP16).