Все статьи
media r/LocalLLaMA · 14 д назад

Создание бюджетных моделей, которые превосходят свои размеры благодаря умному управлению на Rust

Новый фреймворк на основе Rust позволяет малым языковым моделям достигать производительности, сравнимой с более крупными моделями, используя эффективное управление памятью и оптимизированные вычисления. Подход снижает требования к ресурсам без ущерба для точности, делая продвинутую ИИ доступным для сред с ограниченными ресурсами.

media r/LocalLLaMA · 14 д назад

TRELLIS.2 теперь работает нативно на MLX

TRELLIS.2 был перенесён для нативной работы на MLX для процессоров Apple Silicon. Модель поддерживает входные изображения размером 512x512 и 1024x1024, время генерации составляет примерно 70 секунд для изображений 512x517 и от 300 до 700 секунд для изображений 1024x1024 на процессоре M4 Max с 128 ГБ единой памяти.

media r/LocalLLaMA · 14 д назад

GLM 5.2 на 4x Sparks: разумно?

Пользователь спрашивает, возможно ли запуск GLM-5.2 на четырех чипах Ascend GX10 (DGX Sparks). Он уточняет вопрос о 4-битной квантовании с использованием 512 ГБ единой памяти и оценивает скорости обработки промптов и токенов вывода для длины контекста 100 тысяч токенов, отметив, что в интернете нет доступных данных по производительности.

media Interconnects · 14 д назад

Блог о состоянии соединительных технологий, середина 2026 года

Автор формулирует три основные цели: уточнение эволюции передовых моделей ИИ, создание открытой экосистемы ИИ и формирование институтов, поддерживающих эти миссии. Соединительные технологии выступают независимым и прямым голосом в области мышления передовых моделей ИИ, и имеют техническую аудиторию более чем из 70 000 подписчиков. Блог сохраняет платные комментарии для предотвращения шума, генерируемого искусственным интеллектом, и автор планирует достичь 1000 платных подписчиков к лету, подчеркивая финансовую устойчивость и независимость в условиях роста стоимости услуг ИИ.

github llama.cpp · 14 д назад

llama.cpp release b9682 добавляет поддержку Vulkan и новые бинарники для платформ

Версия llama.cpp b9682 добавляет поддержку Vulkan для Linux и Windows, что позволяет использовать ускорение GPU. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах, с вариантами CPU и GPU, включая CUDA, OpenVINO, SYCL и ROCm.

media r/LocalLLaMA · 14 д назад

GLM-5.2 — победа для локальной ИИ

GLM-5.2, содержащий 753 миллиарда параметров и окно контекста в 1 миллион токенов, теперь доступен на локальной аппаратуры через квантование. Его лицензия MIT и обширные обучающие данные позволяют сообществу проводить настройку более мелких моделей, что обещает значительные улучшения для локальных решений ИИ.

media r/LocalLLaMA · 14 д назад

Циклы бездействующих скриншотов позволяют 30B локальному агенту отладить raytraced FPS на чистом C

Локальный агент на 30B, используя циклы бездействующих скриншотов, автономно отлаживает демонстрацию raytraced FPS на чистом C, захватывая кадры на ключевых событиях и итерируя по исправлениям. Агент строит рекурсивный визуальный цикл отладки, демонстрируя, что простые механизмы обратной связи могут позволить малым моделям решать сложные визуально обусловленные задачи.

media r/LocalLLaMA · 14 д назад

SIQ-1 Qwen3.6 достигает сильных результатов в автознаниях и тестировании

Модель SIQ-1, обученная с использованием PPO с верифицируемой наградой, превосходит GLM-5.2 и Qwen-350B по задачам параметрического гольфа, с выводами, схожими с Opus4.8. Она также побеждает NEX и GPT-5.5 на тесте bullshit-bench. Модель и её версия GGUF доступны на Hugging Face, а также представлен демонстрационный агент, совместимый с ZeroGPU.

media r/LocalLLaMA · 14 д назад

Локальная RPG-игра с использованием локальных моделей языковой обработки с постоянным генерируемым контентом

Разработчик выпустил локальную RPG-игру, в которой персонажи, локации, предметы и миссии генерируются как постоянные игровые объекты. Эти элементы могут быть повторно посещаемы и взаимодействованы, а игра интегрирует модели языковой обработки в основные механики RPG, такие как диалог, рассказ и прогрессирование миссий, при управлении инвентарем, боем и сохранениями. Игра продала около 1800 копий в первый месяц и имеет рейтинг 4,0 в магазине, что указывает на интерес игроков к игровым опыта, основанным на ИИ.

github llama.cpp · 14 д назад

Релиз LLaMA.cpp b9678 добавляет оптимизации и сборки для нескольких платформ

Релиз LLaMA.cpp b9678 включает оптимизацию mul_mat_f16_f32_l4 для декодирования и вводит новые сборки для macOS, Linux, Android, Windows и openEuler. Релиз предлагает поддержку CPU, Vulkan, ROCm, OpenVINO, SYCL и HIP на нескольких архитектурах, с доступным специальным пакетом интерфейса.

github llama.cpp · 14 д назад

llama.cpp Release b9677: Обновления и бинарники для разных платформ

В версии llama.cpp b9677 обновлены логи для обеспечения max_capacity и удалена логика расширения очереди. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 14 д назад

Решена ли задача поиска иголки в стоге сена?

Пользователь спрашивает, актуальна ли «задача поиска иголки в стоге сена» — метрика, используемая для оценки производительности моделей — или она была забыта. В посте отражается её историческое применение в релизах моделей и задаётся вопрос о том, не стала ли она устаревшей или забытой.

github llama.cpp · 14 д назад

Релиз LLaMA.cpp b9674: Исправление бага с асинхронным memcpy и добавление новых бинарников

Версия LLaMA.cpp b9674 исправляет баг использования после освобождения в асинхронном memcpy SYCL во время предварительной загрузки MoE. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие CPU, Vulkan, ROCm, OpenVINO, SYCL и CUDA на нескольких архитектурах.

github llama.cpp · 14 д назад

llama.cpp release b9675 добавляет поддержку FP16 и новые бинарники для платформ

Версия llama.cpp b9675 включает поддержку FP16 для операций, таких как SQR, SQRT, LOG, SIN, COS и CLAMP. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах, с поддержкой Vulkan, ROCm, OpenVINO, SYCL (FP16 и FP32) и CUDA 12.4 и 13.3.

media r/LocalLLaMA · 14 д назад

Лучшая оценка по срокам, в течение которых мы увидим модели открытого веса Fable 5

Релиз GLM 5.2 указывает на то, что модели открытого веса достигли уровня Opus 4.8. Пользователи спрашивают, сколько времени потребуется, чтобы увидеть модели открытого веса, соответствующие производительности класса Mythos или Fable из Китая.

media r/LocalLLaMA · 14 д назад

Локальные модели перешли от в основном бесполезных до действительно полезных за один год

Локальные модели перешли от того, что они были в основном ориентированы на приватность и служили игрушками, до практических инструментов для программирования, управления частными документами и локальных рабочих процессов за один год. Хотя они всё ещё не могут заменить лучшие закрытые модели при выполнении сложных задач, требующих планирования и исправления ошибок, общий рост в удобстве и производительности очевиден.

media r/LocalLLaMA · 14 д назад

Год разработки полностью локального голосового помощника для дома

Разработчик потратил 12 месяцев на создание локального, открытого голосового помощника, вдохновленного Alexa, документируя возникающие трудности и прогресс. Проект ставил целью создание альтернативы с акцентом на приватность, используя локальные модели, с постоянными улучшениями и исправлениями.

media r/LocalLLaMA · 14 д назад

GLM-5.2: Создан для задач с длительным горизонтом

GLM-5.2 — это языковая модель, разработанная специально для задач с длительным горизонтом. Она направлена на более эффективное выполнение сложных, многошаговых рассуждений и долгосрочного планирования за счёт улучшения способности сохранять контекст на протяжении длительных последовательностей.

media r/LocalLLaMA · 14 д назад

Rio 3.5 397B, вероятно, неудачное преступление по краже средств на развитие ИИ

AI-модель Rio 3.5 397B, по сообщениям, была разработана путем слияния модели Nex N2 Pro без дополнительной тренировки, используя средства, предназначенные для правильной разработки моделей. Официальная документация сначала утверждала наличие продвинутой тренировки, но позже была обновлена и признала поверхностное слияние, при этом все еще утверждала, что произошла дополнительная тренировка, и исходная модель была удалена с Hugging Face.