Все статьи
media r/LocalLLaMA · 14 д назад

GameCraft-Bench: Может ли агент создавать развертываемые игры в реальном движке игры?

GameCraft-Bench оценивает, может ли большой языковой модель создавать развертываемые игры в целом с использованием реального движка игры. Бенчмарк включает оценку таких основных моделей, как Opus-4.7 и GPT-5.5, и интересуется тем, как модели среднего размера (например, 30-70 миллиардов параметров) выполняют задачи в области разработки игр.

media r/LocalLLaMA · 14 д назад

Gemma 4 E2B работает со скоростью 255 токенов в секунду в браузере с использованием WebGPU

Gemma 4 E2B достигает скорости 255 токенов в секунду в браузере на устройстве M4 Max с использованием ядер WebGPU. Демо и ядра теперь доступны на Hugging Face для публичного использования.

blog Simon Willison · 14 д назад

ИИ требует большей инженерной дисциплины

В 2025 году экономика производства кода изменилась кардинально, что сделало генерацию кода практически бесплатной и мгновенной. Этот сдвиг вызвал культурный сдвиг в разработке программного обеспечения, при котором строки кода перешли от тщательного отбора к тому, что они сталиDisposable и перегенерируемыми.

media r/LocalLLaMA · 14 д назад

Кто-то еще не может найти веб-интерфейс в последней версии llama.cpp b9680?

Пользователи сообщают, что веб-интерфейс отсутствует в последней версии llama.cpp b9680, в то время как версия b9664 работает корректно. Эта проблема была отмечена в Issue на GitHub и подтверждена при использовании Docker.

github llama.cpp · 14 д назад

Релиз LLaMA.cpp b9684 добавляет Conv_3D и бинарники для нескольких платформ

Релиз LLaMA.cpp b9684 вводит новую операцию 3D-конволюции (conv_3d) и включает оптимизированные реализации. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения аппаратного обеспечения, включая SYCL, Vulkan, CUDA и OpenVINO.

media r/LocalLLaMA · 14 д назад

Создание бюджетных моделей, которые превосходят свои размеры благодаря умному управлению на Rust

Новый фреймворк на основе Rust позволяет малым языковым моделям достигать производительности, сравнимой с более крупными моделями, используя эффективное управление памятью и оптимизированные вычисления. Подход снижает требования к ресурсам без ущерба для точности, делая продвинутую ИИ доступным для сред с ограниченными ресурсами.

media r/LocalLLaMA · 14 д назад

TRELLIS.2 теперь работает нативно на MLX

TRELLIS.2 был перенесён для нативной работы на MLX для процессоров Apple Silicon. Модель поддерживает входные изображения размером 512x512 и 1024x1024, время генерации составляет примерно 70 секунд для изображений 512x517 и от 300 до 700 секунд для изображений 1024x1024 на процессоре M4 Max с 128 ГБ единой памяти.

media r/LocalLLaMA · 14 д назад

GLM 5.2 на 4x Sparks: разумно?

Пользователь спрашивает, возможно ли запуск GLM-5.2 на четырех чипах Ascend GX10 (DGX Sparks). Он уточняет вопрос о 4-битной квантовании с использованием 512 ГБ единой памяти и оценивает скорости обработки промптов и токенов вывода для длины контекста 100 тысяч токенов, отметив, что в интернете нет доступных данных по производительности.

media Interconnects · 14 д назад

Блог о состоянии соединительных технологий, середина 2026 года

Автор формулирует три основные цели: уточнение эволюции передовых моделей ИИ, создание открытой экосистемы ИИ и формирование институтов, поддерживающих эти миссии. Соединительные технологии выступают независимым и прямым голосом в области мышления передовых моделей ИИ, и имеют техническую аудиторию более чем из 70 000 подписчиков. Блог сохраняет платные комментарии для предотвращения шума, генерируемого искусственным интеллектом, и автор планирует достичь 1000 платных подписчиков к лету, подчеркивая финансовую устойчивость и независимость в условиях роста стоимости услуг ИИ.

github llama.cpp · 14 д назад

llama.cpp release b9682 добавляет поддержку Vulkan и новые бинарники для платформ

Версия llama.cpp b9682 добавляет поддержку Vulkan для Linux и Windows, что позволяет использовать ускорение GPU. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах, с вариантами CPU и GPU, включая CUDA, OpenVINO, SYCL и ROCm.

media r/LocalLLaMA · 14 д назад

GLM-5.2 — победа для локальной ИИ

GLM-5.2, содержащий 753 миллиарда параметров и окно контекста в 1 миллион токенов, теперь доступен на локальной аппаратуры через квантование. Его лицензия MIT и обширные обучающие данные позволяют сообществу проводить настройку более мелких моделей, что обещает значительные улучшения для локальных решений ИИ.

media r/LocalLLaMA · 14 д назад

Циклы бездействующих скриншотов позволяют 30B локальному агенту отладить raytraced FPS на чистом C

Локальный агент на 30B, используя циклы бездействующих скриншотов, автономно отлаживает демонстрацию raytraced FPS на чистом C, захватывая кадры на ключевых событиях и итерируя по исправлениям. Агент строит рекурсивный визуальный цикл отладки, демонстрируя, что простые механизмы обратной связи могут позволить малым моделям решать сложные визуально обусловленные задачи.

media r/LocalLLaMA · 14 д назад

SIQ-1 Qwen3.6 достигает сильных результатов в автознаниях и тестировании

Модель SIQ-1, обученная с использованием PPO с верифицируемой наградой, превосходит GLM-5.2 и Qwen-350B по задачам параметрического гольфа, с выводами, схожими с Opus4.8. Она также побеждает NEX и GPT-5.5 на тесте bullshit-bench. Модель и её версия GGUF доступны на Hugging Face, а также представлен демонстрационный агент, совместимый с ZeroGPU.

media r/LocalLLaMA · 14 д назад

Локальная RPG-игра с использованием локальных моделей языковой обработки с постоянным генерируемым контентом

Разработчик выпустил локальную RPG-игру, в которой персонажи, локации, предметы и миссии генерируются как постоянные игровые объекты. Эти элементы могут быть повторно посещаемы и взаимодействованы, а игра интегрирует модели языковой обработки в основные механики RPG, такие как диалог, рассказ и прогрессирование миссий, при управлении инвентарем, боем и сохранениями. Игра продала около 1800 копий в первый месяц и имеет рейтинг 4,0 в магазине, что указывает на интерес игроков к игровым опыта, основанным на ИИ.

github llama.cpp · 14 д назад

Релиз LLaMA.cpp b9678 добавляет оптимизации и сборки для нескольких платформ

Релиз LLaMA.cpp b9678 включает оптимизацию mul_mat_f16_f32_l4 для декодирования и вводит новые сборки для macOS, Linux, Android, Windows и openEuler. Релиз предлагает поддержку CPU, Vulkan, ROCm, OpenVINO, SYCL и HIP на нескольких архитектурах, с доступным специальным пакетом интерфейса.

github llama.cpp · 14 д назад

llama.cpp Release b9677: Обновления и бинарники для разных платформ

В версии llama.cpp b9677 обновлены логи для обеспечения max_capacity и удалена логика расширения очереди. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 14 д назад

Решена ли задача поиска иголки в стоге сена?

Пользователь спрашивает, актуальна ли «задача поиска иголки в стоге сена» — метрика, используемая для оценки производительности моделей — или она была забыта. В посте отражается её историческое применение в релизах моделей и задаётся вопрос о том, не стала ли она устаревшей или забытой.

github llama.cpp · 14 д назад

Релиз LLaMA.cpp b9674: Исправление бага с асинхронным memcpy и добавление новых бинарников

Версия LLaMA.cpp b9674 исправляет баг использования после освобождения в асинхронном memcpy SYCL во время предварительной загрузки MoE. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие CPU, Vulkan, ROCm, OpenVINO, SYCL и CUDA на нескольких архитектурах.

github llama.cpp · 14 д назад

llama.cpp release b9675 добавляет поддержку FP16 и новые бинарники для платформ

Версия llama.cpp b9675 включает поддержку FP16 для операций, таких как SQR, SQRT, LOG, SIN, COS и CLAMP. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах, с поддержкой Vulkan, ROCm, OpenVINO, SYCL (FP16 и FP32) и CUDA 12.4 и 13.3.

media r/LocalLLaMA · 14 д назад

Лучшая оценка по срокам, в течение которых мы увидим модели открытого веса Fable 5

Релиз GLM 5.2 указывает на то, что модели открытого веса достигли уровня Opus 4.8. Пользователи спрашивают, сколько времени потребуется, чтобы увидеть модели открытого веса, соответствующие производительности класса Mythos или Fable из Китая.