Code generation
media r/LocalLLaMA · 5 д назад

Сандбоксирование выполнения кода для агентов ИИ

Разговор о эффективных методах сандбоксирования для агентов ИИ, выполняющих произвольный код, оценка контейнеров Docker, микровМ, WASM и выполнения на уровне хоста. В посте подчеркиваются требования к изоляции, быстрому запуску, контролю доступа к сети и поддержке постоянного файловой системы при выполнении, при этом просится об обмене реализациями и принятых компромиссах.

media r/LocalLLaMA · 5 д назад

Предложение о разделении базовых моделей для избежания переобучения

Предложение предлагает разделить архитектуру модели на стабильную базовую модель и легковесные, заменяемые рабочие модели. Базовая модель отвечает за основные рассуждения и выступает в роли платформы, в то время как рабочие модели обеспечивают специализированные знания через динамическое подключение в режиме выполнения, аналогично LoRA, но для знаний, а не для поведения.

media r/LocalLLaMA · 5 д назад

Следите за тем, как локальные LLM выходят из комнат, которые вы создаете

Новый инструмент позволяет пользователям создавать среды в стиле комнат для ухода и наблюдать, как локальные LLM перемещаются и выходят из них с помощью простых действий. Проект, разработанный для хакатона "Build Small" Hugging Face x Gradio, поддерживает пять шаблонов моделей и позволяет создавать пользовательские карты с визуализацией на основе шрифтов и импортом/экспортом в формате JSON. Он использует рамку "Мысль, затем действие", чтобы обеспечить надежную работу малых моделей в структурированных игровых средах.

media r/LocalLLaMA · 5 д назад

GLM-5.2 побеждает Гемини и GPT-5.4 в программировании, но является неэффективным

GLM-5.2 превосходит GPT-5.4 и всю линейку Гемини по производительности в программировании на бенчмарке DeepSWE. Однако он требует значительно большего количества токенов вывода, что делает его существенно менее эффективным с точки зрения затрат на задачу по сравнению с моделями, такими как GPT-5.5 и Claude Opus 4.8.

media r/LocalLLaMA · 5 д назад

Вице-президент Vercel говорит, что почти шокировано от способностей GLM-5.2 в программировании

Гуильемо Рауч, вице-президент Vercel, отметил, что он 'настоящим образом впечатлен, почти шокирован' производительностью GLM-5.2 в задачах программирования. Он поделился этим комментарием в посте на X, подчеркнув сильные способности модели к генерации кода.

media r/LocalLLaMA · 5 д назад

SupraLabs запускает семейство моделей Any2Any

SupraLabs представила модель Supra-A2A-Nano-Exp, многомодальную модель на 30 млн параметров, которая объединяет текст, изображения и видео в один поток токенов. Модель рассматривает все модальности как токены в общей последовательности, позволяя проводить моделирование языка на совокупном словаре из 50 520 токенов без отдельных визуальных кодировщиков или модулей перекрестного внимания.

media r/LocalLLaMA · 5 д назад

semantic-memory: локальная база знаний с типизированными графовыми рёбрами

semantic-memory — это локальная база знаний на языке Rust, которая объединяет поисковые методы BM25, векторного поиска и синтеза по рекурсивному ранжированию с SQLite. В ней реализованы типизированные графовые рёбра для причинных, временных и семантических связей, отслеживание происхождения, би-временная хранение и адаптивное направление запросов, поддерживая 18 инструментов MCP для ИИ-агентов. Все компоненты работают локально без зависимостей от облака, ключей API или телеметрии.

media r/LocalLLaMA · 5 д назад

Что делают люди с локальными моделями и какие инструменты они используют?

Пользователь спрашивает о практическом применении локальных моделей и о том, какие инструменты эффективны для задач, таких как программирование, особенно в качестве альтернативы веб-интерфейсам, таким как Claude.ai. Они упоминают попытку использования OpenWebUI, но отмечают, что он недостаточно мощен без значительной настройки.

media r/LocalLLaMA · 5 д назад

Что происходит, когда подписки на LLM перестают поддерживаться?

Поставщики LLM в настоящее время поддерживали дорогостоящее использование API для создания экосистем, планируя повысить цены позже. По мере того, как поддержка уменьшается, пользователи могут столкнуться с резким ростом цен — например, до 2000 долларов в месяц — что сделает доступ к сервису дорогостоящим и угрожает широкому внедрению, особенно для лиц, которые зависят от недорогого оборудования для запуска моделей.

media r/LocalLLaMA · 6 д назад

Расширение Qwen Code Companion теперь открыто для использования

Расширение Qwen Code Companion для VSCode теперь доступно в магазине и открыто для использования по адресу https://github.com/QwenLM/qwen-code. Пользователи отмечают, что оно работает хорошо с моделями, размещёнными в LM Studio, и превосходит другие локальные инструменты для LLM, такие как continue, kilo, cline и roo, при минимальной настройке.

media r/LocalLLaMA · 6 д назад

Сложности с завершением токен-планов Xiaomi Mimo-v2.5-pro до истечения срока

Пользователь имеет 24B токен-кредитов из конкурса токен-плана Xiaomi, стоимостью $50, но полученных бесплатно. Он сообщает о высоком потреблении токенов при использовании, ограниченной поддержке инструментов и теперь обеспокоен тем, что кредиты будут потеряны из-за истечения срока в четыре дня. Модель похвалена за 90% ставку кэша и 99% снижение цены при кэшировании, пользователь отмечает, что она хорошо справляется с задачами по программированию и планированию.

media r/LocalLLaMA · 6 д назад

Глубокая нейронная сеть превращает изображения в игровые сессии локально

Локально работающая глубокая нейронная сеть может превращать любое изображение в игровую сессию, используя небольшую модель, похожую на трансформер, обученную с нуля. Модель, работающая на RTX 5090, генерирует игровые последовательности автокоррекционно с реальным вводом клавиатуры, хотя в настоящее время она страдает от плохой динамики и проблем с контекстом.

media r/LocalLLaMA · 6 д назад

Теперь вы можете конвертировать квантованные модели EXL3 на Mac с процессором Apple Silicon

Пользователи теперь могут конвертировать и запускать квантованные модели EXL3 на Mac с процессором Apple Silicon и объёмом памяти 64 ГБ и более. Проверки показывают, что модели, такие как MiniCPM5 и Qwen3.6-27B, достигают производительности, сравнимой с или немного ниже производительности при конвертации на картах RTX, при этом EXL3 обеспечивает более высокое качество квантования по сравнению с MLX.

media r/LocalLLaMA · 6 д назад

Два документа Word обмениваются содержимым через локальные LLMs — реальные примеры использования?

Прототип демонстрирует, как два документа Word обмениваются содержимым с помощью локальных LLMs, с итеративными взаимодействиями на нескольких шагах. Потенциальные практические примеры включают итеративное взаимодействие чернового документа и критического документа, или совместную работу спецификации и реализации документа, хотя реализуемость таких рабочих процессов остаётся неопределённой.

media r/LocalLLaMA · 6 д назад

Какой из моделей лучше: Qwen3.6-27B@BF16 или Step3.7@IQ4_XS?

Пользователь спрашивает, какой из моделей — Qwen3.6-27B при точности BF16 или Step3.7 с квантованием IQ4_XS — будет принимать более осознанные, автономные решения с меньшей необходимостью в руководстве человека. Вопрос сравнивает плотную модель высокой точности с более крупной моделью на основе MoE при низкой точности, указывая на компромиссы в памяти и производительности.

media r/LocalLLaMA · 6 д назад

Лучший локальный LLM для суммирования английских рассказов

Пользователь спрашивает, какой локальный LLM в настоящее время показывает наилучшие результаты при суммировании длинных английских рассказов. Запрос подчёркивает необходимость точных локальных LLM, способных обрабатывать многостраничные рассказы на английском языке.

github llama.cpp · 6 д назад

Исправление индексатора DSA для GLM-5.2: тензоры помечены как не требуемые

Индексатор DSA для модели GLM-5.2 неправильно загружался на всех слоях, что приводило к сбоям из-за отсутствия тензоров. В обновлении тензоры индексатора помечаются как TENSOR_NOT_REQUIRED, что позволяет слоям без индексатора загружать как nullptr, обеспечивая полную работу внимания MLA. Модель DeepSeek-V3.2, имеющая единое индексирование, не затронута.

media r/LocalLLaMA · 6 д назад

Наилучшие настройки для 48 ГБ ОЗУ с Qwen 3.6 27B

Пользователь делится оптимизированными настройками для запуска Qwen 3.6 27B с квантованием Q8_0 на системе RTX 4090 и RTX 3090 с использованием llama.cpp. Конфигурация включает разбиение тензоров, 999 слоев на GPU, контекст длиной 250k, спекулятивное декодирование и единый кэш КВ, что обеспечивает пропускную способность 75-100t/s с поддержкой визуальных данных и MTP.

media r/LocalLLaMA · 6 д назад

Помощь с локальной системой RAG для документов (хранилище + ввод + запрос + выделение)

Пользователь разрабатывает локальную, оффлайн-систему поиска документов и интеграции с LLM, включающую функции хранения, ввода, запроса и выделения. Он просит советы по выбору векторных баз данных (например, pgvector в Postgres по сравнению с Qdrant), возможности использования GraphRAG в оффлайн-режиме и открытых инструментов для выделения документов с цитатами.