Code generation
media r/LocalLLaMA · 7 д назад

Lemonade v10.8 Выпускает автоматическое управление памятью, поддержку облака и инструменты MCP

Lemonade v10.8 вводит динамическое управление памятью VRAM, которое автоматически выгружает неиспользуемые модели и уменьшает кэш KV для освобождения памяти GPU. Вводится поддержка облака для поставщиков, совместимых с OpenAI, что позволяет осуществлять локальное обслуживание моделей с возможностью маршрутизации в облако. Новый веб-интерфейс MCP открывает локальные модели как инструменты через POST /mcp, позволяя использовать локальные модели как инструменты в приложениях, оснащенных MCP.

media r/LocalLLaMA · 7 д назад

Видео о выпуске GLM 5.2 создано с использованием GLM 5.2

Создано и опубликовано видео, демонстрирующее возможности GLM 5.2. Пользователи отмечают, что модель хорошо справляется с задачами веб-разработки, хотя по-прежнему уступает в генерации видео передовыми моделями, такими как Gemini 3.1 Pro. Длинные ответы часто прерываются на OpenRouter, что заставляет пользователей переключаться на другие поставщики, чтобы получить полные ответы.

media r/LocalLLaMA · 7 д назад

Мы срочно нуждаемся в модели 80-160B для устройств с единой памятью

Пользователи с единой памятью 80-160 ГБ или с высокоскоростной ОЗУ сталкиваются с ограничениями из-за отсутствия моделей, адаптированных к их оборудованию. Существующие модели либо слишком малы для обеспечения производительности, либо слишком большие для ограничений памяти, что приводит к требованию разработки моделей на 100 миллиардов параметров, таких как Qwen 3.5 122B или Gemma 4 122B, чтобы лучше обслуживать пользователей с AMD AI Pro, RTX 3090/5090 или устройствами Apple.

github llama.cpp · 7 д назад

llama.cpp Release b9687 Adds New Binaries and Fixes

llama.cpp version b9687 вводит новые бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе предусмотрена поддержка Vulkan, ROCm, OpenVINO, SYCL и HIP, с обновлениями, улучшающими проверку устройств и производительность на доступном оборудовании.

github llama.cpp · 7 д назад

llama.cpp выпускает версию b9688 с новыми API и бинарниками для разных платформ

llama.cpp выпускает версию b9688, добавляя API для управления моделями и в реальном времени обновлений SSE. В релизе включены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и ускорения, такие как Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 7 д назад

PSA: unsloth/GLM-5.2-GGUF находится в процессе загрузки

Пользователь Reddit заметил, что репозиторий unsloth/GLM-5.2-GGUF был создан всего полчаса назад и на данный момент содержит только README. Они подозревают, что файлы модели GGUF загружаются, и поделились ссылкой на репозиторий.

media r/LocalLLaMA · 7 д назад

GLM-5.2-FP8 HGX-H200 SGLang Docker Deployment Config

Пользователь делится конфигурацией Docker для запуска GLM-5.2-FP8 на аппаратных средствах HGX-H200 с использованием SGLang. Настройка достигает длины контекста 262k и скорости 70 токенов в секунду при 8 параллелизме тензоров, используя долю памяти 0.83. Пользователь отмечает, что официальные рецепты vLLM не работают на H200 из-за ограничений квантования FP8 кэша KV на архитектуре DSV3.

github llama.cpp · 7 д назад

Релиз LLaMA.cpp b9685 добавляет SYCL Dev2Dev Memcpy и несколько платформенных бинарных файлов

Версия LLaMA.cpp b9685 вводит функциональность dev2dev memcpy на основе SYCL, перемещая GGML_SYCL_DEV2DEV_MEMCPY в таблицу на уровне выполнения и улучшает обнаружение взаимодействия между процессами. В релизе представлены предварительно скомпилированные бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, ROCm, OpenVINO и SYCL (FP32/FP16).

media r/LocalLLaMA · 7 д назад

LoopCoder-V2: Модель PLT с двумя циклами достигает наилучшего соотношения выгоды и затрат

LoopCoder-V2 — это модель кода на 7B параметров, обученная на параллельном трансформере (PLT), и обученная на 18T токенов смешанных текстовых и кодовых данных. Вариант с двумя циклами достигает наилучшего соотношения выгоды и затрат, увеличивая SWE-bench Verified с 43.0 до 64.4, в то время как три или более циклов приводят к регрессии из-за роста позиционного несоответствия и нестабильных обновлений.

media r/LocalLLaMA · 7 д назад

GameCraft-Bench: Может ли агент создавать развертываемые игры в реальном движке игры?

GameCraft-Bench оценивает, может ли большой языковой модель создавать развертываемые игры в целом с использованием реального движка игры. Бенчмарк включает оценку таких основных моделей, как Opus-4.7 и GPT-5.5, и интересуется тем, как модели среднего размера (например, 30-70 миллиардов параметров) выполняют задачи в области разработки игр.

blog Simon Willison · 7 д назад

ИИ требует большей инженерной дисциплины

В 2025 году экономика производства кода изменилась кардинально, что сделало генерацию кода практически бесплатной и мгновенной. Этот сдвиг вызвал культурный сдвиг в разработке программного обеспечения, при котором строки кода перешли от тщательного отбора к тому, что они сталиDisposable и перегенерируемыми.

github llama.cpp · 7 д назад

Релиз LLaMA.cpp b9684 добавляет Conv_3D и бинарники для нескольких платформ

Релиз LLaMA.cpp b9684 вводит новую операцию 3D-конволюции (conv_3d) и включает оптимизированные реализации. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения аппаратного обеспечения, включая SYCL, Vulkan, CUDA и OpenVINO.

media r/LocalLLaMA · 7 д назад

GLM 5.2 на 4x Sparks: разумно?

Пользователь спрашивает, возможно ли запуск GLM-5.2 на четырех чипах Ascend GX10 (DGX Sparks). Он уточняет вопрос о 4-битной квантовании с использованием 512 ГБ единой памяти и оценивает скорости обработки промптов и токенов вывода для длины контекста 100 тысяч токенов, отметив, что в интернете нет доступных данных по производительности.

github llama.cpp · 7 д назад

llama.cpp release b9682 добавляет поддержку Vulkan и новые бинарники для платформ

Версия llama.cpp b9682 добавляет поддержку Vulkan для Linux и Windows, что позволяет использовать ускорение GPU. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах, с вариантами CPU и GPU, включая CUDA, OpenVINO, SYCL и ROCm.

media r/LocalLLaMA · 7 д назад

GLM-5.2 — победа для локальной ИИ

GLM-5.2, содержащий 753 миллиарда параметров и окно контекста в 1 миллион токенов, теперь доступен на локальной аппаратуры через квантование. Его лицензия MIT и обширные обучающие данные позволяют сообществу проводить настройку более мелких моделей, что обещает значительные улучшения для локальных решений ИИ.

media r/LocalLLaMA · 7 д назад

Циклы бездействующих скриншотов позволяют 30B локальному агенту отладить raytraced FPS на чистом C

Локальный агент на 30B, используя циклы бездействующих скриншотов, автономно отлаживает демонстрацию raytraced FPS на чистом C, захватывая кадры на ключевых событиях и итерируя по исправлениям. Агент строит рекурсивный визуальный цикл отладки, демонстрируя, что простые механизмы обратной связи могут позволить малым моделям решать сложные визуально обусловленные задачи.

media r/LocalLLaMA · 7 д назад

Локальная RPG-игра с использованием локальных моделей языковой обработки с постоянным генерируемым контентом

Разработчик выпустил локальную RPG-игру, в которой персонажи, локации, предметы и миссии генерируются как постоянные игровые объекты. Эти элементы могут быть повторно посещаемы и взаимодействованы, а игра интегрирует модели языковой обработки в основные механики RPG, такие как диалог, рассказ и прогрессирование миссий, при управлении инвентарем, боем и сохранениями. Игра продала около 1800 копий в первый месяц и имеет рейтинг 4,0 в магазине, что указывает на интерес игроков к игровым опыта, основанным на ИИ.

github llama.cpp · 8 д назад

llama.cpp release b9675 добавляет поддержку FP16 и новые бинарники для платформ

Версия llama.cpp b9675 включает поддержку FP16 для операций, таких как SQR, SQRT, LOG, SIN, COS и CLAMP. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах, с поддержкой Vulkan, ROCm, OpenVINO, SYCL (FP16 и FP32) и CUDA 12.4 и 13.3.

media r/LocalLLaMA · 8 д назад

Локальные модели перешли от в основном бесполезных до действительно полезных за один год

Локальные модели перешли от того, что они были в основном ориентированы на приватность и служили игрушками, до практических инструментов для программирования, управления частными документами и локальных рабочих процессов за один год. Хотя они всё ещё не могут заменить лучшие закрытые модели при выполнении сложных задач, требующих планирования и исправления ошибок, общий рост в удобстве и производительности очевиден.