Все статьи
github llama.cpp · 14 д назад

llama.cpp Release b9686: Исправление сегфолта при длинных запросах для Eagle3

Версия llama.cpp b9686 исправляет сегфолт, возникающий при длинных запросах на модели Eagle3. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 14 д назад

LoopCoder-V2: Модель PLT с двумя циклами достигает наилучшего соотношения выгоды и затрат

LoopCoder-V2 — это модель кода на 7B параметров, обученная на параллельном трансформере (PLT), и обученная на 18T токенов смешанных текстовых и кодовых данных. Вариант с двумя циклами достигает наилучшего соотношения выгоды и затрат, увеличивая SWE-bench Verified с 43.0 до 64.4, в то время как три или более циклов приводят к регрессии из-за роста позиционного несоответствия и нестабильных обновлений.

media r/LocalLLaMA · 14 д назад

GameCraft-Bench: Может ли агент создавать развертываемые игры в реальном движке игры?

GameCraft-Bench оценивает, может ли большой языковой модель создавать развертываемые игры в целом с использованием реального движка игры. Бенчмарк включает оценку таких основных моделей, как Opus-4.7 и GPT-5.5, и интересуется тем, как модели среднего размера (например, 30-70 миллиардов параметров) выполняют задачи в области разработки игр.

media r/LocalLLaMA · 14 д назад

Gemma 4 E2B работает со скоростью 255 токенов в секунду в браузере с использованием WebGPU

Gemma 4 E2B достигает скорости 255 токенов в секунду в браузере на устройстве M4 Max с использованием ядер WebGPU. Демо и ядра теперь доступны на Hugging Face для публичного использования.

blog Simon Willison · 14 д назад

ИИ требует большей инженерной дисциплины

В 2025 году экономика производства кода изменилась кардинально, что сделало генерацию кода практически бесплатной и мгновенной. Этот сдвиг вызвал культурный сдвиг в разработке программного обеспечения, при котором строки кода перешли от тщательного отбора к тому, что они сталиDisposable и перегенерируемыми.

media r/LocalLLaMA · 14 д назад

Кто-то еще не может найти веб-интерфейс в последней версии llama.cpp b9680?

Пользователи сообщают, что веб-интерфейс отсутствует в последней версии llama.cpp b9680, в то время как версия b9664 работает корректно. Эта проблема была отмечена в Issue на GitHub и подтверждена при использовании Docker.

github llama.cpp · 14 д назад

Релиз LLaMA.cpp b9684 добавляет Conv_3D и бинарники для нескольких платформ

Релиз LLaMA.cpp b9684 вводит новую операцию 3D-конволюции (conv_3d) и включает оптимизированные реализации. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения аппаратного обеспечения, включая SYCL, Vulkan, CUDA и OpenVINO.

media r/LocalLLaMA · 14 д назад

Создание бюджетных моделей, которые превосходят свои размеры благодаря умному управлению на Rust

Новый фреймворк на основе Rust позволяет малым языковым моделям достигать производительности, сравнимой с более крупными моделями, используя эффективное управление памятью и оптимизированные вычисления. Подход снижает требования к ресурсам без ущерба для точности, делая продвинутую ИИ доступным для сред с ограниченными ресурсами.

media r/LocalLLaMA · 14 д назад

TRELLIS.2 теперь работает нативно на MLX

TRELLIS.2 был перенесён для нативной работы на MLX для процессоров Apple Silicon. Модель поддерживает входные изображения размером 512x512 и 1024x1024, время генерации составляет примерно 70 секунд для изображений 512x517 и от 300 до 700 секунд для изображений 1024x1024 на процессоре M4 Max с 128 ГБ единой памяти.

media r/LocalLLaMA · 14 д назад

GLM 5.2 на 4x Sparks: разумно?

Пользователь спрашивает, возможно ли запуск GLM-5.2 на четырех чипах Ascend GX10 (DGX Sparks). Он уточняет вопрос о 4-битной квантовании с использованием 512 ГБ единой памяти и оценивает скорости обработки промптов и токенов вывода для длины контекста 100 тысяч токенов, отметив, что в интернете нет доступных данных по производительности.

media Interconnects · 14 д назад

Блог о состоянии соединительных технологий, середина 2026 года

Автор формулирует три основные цели: уточнение эволюции передовых моделей ИИ, создание открытой экосистемы ИИ и формирование институтов, поддерживающих эти миссии. Соединительные технологии выступают независимым и прямым голосом в области мышления передовых моделей ИИ, и имеют техническую аудиторию более чем из 70 000 подписчиков. Блог сохраняет платные комментарии для предотвращения шума, генерируемого искусственным интеллектом, и автор планирует достичь 1000 платных подписчиков к лету, подчеркивая финансовую устойчивость и независимость в условиях роста стоимости услуг ИИ.

github llama.cpp · 14 д назад

llama.cpp release b9682 добавляет поддержку Vulkan и новые бинарники для платформ

Версия llama.cpp b9682 добавляет поддержку Vulkan для Linux и Windows, что позволяет использовать ускорение GPU. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах, с вариантами CPU и GPU, включая CUDA, OpenVINO, SYCL и ROCm.

media r/LocalLLaMA · 14 д назад

GLM-5.2 — победа для локальной ИИ

GLM-5.2, содержащий 753 миллиарда параметров и окно контекста в 1 миллион токенов, теперь доступен на локальной аппаратуры через квантование. Его лицензия MIT и обширные обучающие данные позволяют сообществу проводить настройку более мелких моделей, что обещает значительные улучшения для локальных решений ИИ.

media r/LocalLLaMA · 14 д назад

Циклы бездействующих скриншотов позволяют 30B локальному агенту отладить raytraced FPS на чистом C

Локальный агент на 30B, используя циклы бездействующих скриншотов, автономно отлаживает демонстрацию raytraced FPS на чистом C, захватывая кадры на ключевых событиях и итерируя по исправлениям. Агент строит рекурсивный визуальный цикл отладки, демонстрируя, что простые механизмы обратной связи могут позволить малым моделям решать сложные визуально обусловленные задачи.

media r/LocalLLaMA · 14 д назад

SIQ-1 Qwen3.6 достигает сильных результатов в автознаниях и тестировании

Модель SIQ-1, обученная с использованием PPO с верифицируемой наградой, превосходит GLM-5.2 и Qwen-350B по задачам параметрического гольфа, с выводами, схожими с Opus4.8. Она также побеждает NEX и GPT-5.5 на тесте bullshit-bench. Модель и её версия GGUF доступны на Hugging Face, а также представлен демонстрационный агент, совместимый с ZeroGPU.

media r/LocalLLaMA · 14 д назад

Локальная RPG-игра с использованием локальных моделей языковой обработки с постоянным генерируемым контентом

Разработчик выпустил локальную RPG-игру, в которой персонажи, локации, предметы и миссии генерируются как постоянные игровые объекты. Эти элементы могут быть повторно посещаемы и взаимодействованы, а игра интегрирует модели языковой обработки в основные механики RPG, такие как диалог, рассказ и прогрессирование миссий, при управлении инвентарем, боем и сохранениями. Игра продала около 1800 копий в первый месяц и имеет рейтинг 4,0 в магазине, что указывает на интерес игроков к игровым опыта, основанным на ИИ.

github llama.cpp · 14 д назад

Релиз LLaMA.cpp b9678 добавляет оптимизации и сборки для нескольких платформ

Релиз LLaMA.cpp b9678 включает оптимизацию mul_mat_f16_f32_l4 для декодирования и вводит новые сборки для macOS, Linux, Android, Windows и openEuler. Релиз предлагает поддержку CPU, Vulkan, ROCm, OpenVINO, SYCL и HIP на нескольких архитектурах, с доступным специальным пакетом интерфейса.

github llama.cpp · 14 д назад

llama.cpp Release b9677: Обновления и бинарники для разных платформ

В версии llama.cpp b9677 обновлены логи для обеспечения max_capacity и удалена логика расширения очереди. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 14 д назад

Решена ли задача поиска иголки в стоге сена?

Пользователь спрашивает, актуальна ли «задача поиска иголки в стоге сена» — метрика, используемая для оценки производительности моделей — или она была забыта. В посте отражается её историческое применение в релизах моделей и задаётся вопрос о том, не стала ли она устаревшей или забытой.

github llama.cpp · 14 д назад

Релиз LLaMA.cpp b9674: Исправление бага с асинхронным memcpy и добавление новых бинарников

Версия LLaMA.cpp b9674 исправляет баг использования после освобождения в асинхронном memcpy SYCL во время предварительной загрузки MoE. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие CPU, Vulkan, ROCm, OpenVINO, SYCL и CUDA на нескольких архитектурах.