Все статьи
media r/LocalLLaMA · 14 д назад

Я пообучил модель для надежного броска кубика

Пользователь обучил языковую модель бросать кубик, обеспечивая, что каждое число появляется примерно один раз из шести бросков. В посте подчеркивается, что популярные LLM часто отвечают '4', когда спрашивают о броске кубика, что иллюстрирует более широкую проблему в обучении на основе вознаграждений: модели часто не эффективно исследуют пространство и вместо этого следуют известным паттернам.

media r/LocalLLaMA · 14 д назад

PSA: unsloth/GLM-5.2-GGUF находится в процессе загрузки

Пользователь Reddit заметил, что репозиторий unsloth/GLM-5.2-GGUF был создан всего полчаса назад и на данный момент содержит только README. Они подозревают, что файлы модели GGUF загружаются, и поделились ссылкой на репозиторий.

media Latent Space · 14 д назад

Radical AI достигает ускорения в 10 раз в открытии материалов

Radical AI ускорил открытие материалов, создав и исследуя 1200 сплавов за шесть месяцев — почти в 10 раз быстрее, чем цель DARPA/GE MACH по созданию 500 сплавов за год. Их автономные лаборатории используют искусственных ученых для генерации и проверки гипотез в замкнутых системах, что привело к созданию 300 новых материалов, из которых 10 демонстрируют новые, передовые свойства, которые сейчас разрабатываются для коммерческого применения.

media r/LocalLLaMA · 14 д назад

советы по оптимизации памяти GPU для llama.cpp

Пользователи llama.cpp могут освободить память GPU, отключив offload mmproj, используя уменьшенные типы KV-кэша и настраивая spec-draft-n-max. Параметры, такие как --ctx-checkpoints и --fit-target, оказывают минимальное влияние, в то время как --parallel помогает в многопользовательских средах, но не подходит для однопользовательских настроек.

media r/LocalLLaMA · 14 д назад

GLM-5.2-FP8 HGX-H200 SGLang Docker Deployment Config

Пользователь делится конфигурацией Docker для запуска GLM-5.2-FP8 на аппаратных средствах HGX-H200 с использованием SGLang. Настройка достигает длины контекста 262k и скорости 70 токенов в секунду при 8 параллелизме тензоров, используя долю памяти 0.83. Пользователь отмечает, что официальные рецепты vLLM не работают на H200 из-за ограничений квантования FP8 кэша KV на архитектуре DSV3.

media r/LocalLLaMA · 14 д назад

Мы создали открытый источник UI-кит для RAG/агентов документов

Extend AI выпустил открытый источник UI-кит с 15 компонентами для просмотра PDF, DOCX и XLSX, включая рамки цитирования, загрузку файлов, электронную подпись и файловую систему. Инструмент, лицензированный MIT и полностью настраиваемый, изначально был внутренним, но теперь открыт благодаря спросу со стороны клиентов, и поддерживается для масштабируемости и обработки редких случаев в высоконагруженных процессах обработки документов.

github llama.cpp · 14 д назад

Релиз LLaMA.cpp b9685 добавляет SYCL Dev2Dev Memcpy и несколько платформенных бинарных файлов

Версия LLaMA.cpp b9685 вводит функциональность dev2dev memcpy на основе SYCL, перемещая GGML_SYCL_DEV2DEV_MEMCPY в таблицу на уровне выполнения и улучшает обнаружение взаимодействия между процессами. В релизе представлены предварительно скомпилированные бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, ROCm, OpenVINO и SYCL (FP32/FP16).

github llama.cpp · 14 д назад

llama.cpp Release b9686: Исправление сегфолта при длинных запросах для Eagle3

Версия llama.cpp b9686 исправляет сегфолт, возникающий при длинных запросах на модели Eagle3. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 14 д назад

LoopCoder-V2: Модель PLT с двумя циклами достигает наилучшего соотношения выгоды и затрат

LoopCoder-V2 — это модель кода на 7B параметров, обученная на параллельном трансформере (PLT), и обученная на 18T токенов смешанных текстовых и кодовых данных. Вариант с двумя циклами достигает наилучшего соотношения выгоды и затрат, увеличивая SWE-bench Verified с 43.0 до 64.4, в то время как три или более циклов приводят к регрессии из-за роста позиционного несоответствия и нестабильных обновлений.

media r/LocalLLaMA · 14 д назад

GameCraft-Bench: Может ли агент создавать развертываемые игры в реальном движке игры?

GameCraft-Bench оценивает, может ли большой языковой модель создавать развертываемые игры в целом с использованием реального движка игры. Бенчмарк включает оценку таких основных моделей, как Opus-4.7 и GPT-5.5, и интересуется тем, как модели среднего размера (например, 30-70 миллиардов параметров) выполняют задачи в области разработки игр.

media r/LocalLLaMA · 14 д назад

Gemma 4 E2B работает со скоростью 255 токенов в секунду в браузере с использованием WebGPU

Gemma 4 E2B достигает скорости 255 токенов в секунду в браузере на устройстве M4 Max с использованием ядер WebGPU. Демо и ядра теперь доступны на Hugging Face для публичного использования.

blog Simon Willison · 14 д назад

ИИ требует большей инженерной дисциплины

В 2025 году экономика производства кода изменилась кардинально, что сделало генерацию кода практически бесплатной и мгновенной. Этот сдвиг вызвал культурный сдвиг в разработке программного обеспечения, при котором строки кода перешли от тщательного отбора к тому, что они сталиDisposable и перегенерируемыми.

media r/LocalLLaMA · 14 д назад

Кто-то еще не может найти веб-интерфейс в последней версии llama.cpp b9680?

Пользователи сообщают, что веб-интерфейс отсутствует в последней версии llama.cpp b9680, в то время как версия b9664 работает корректно. Эта проблема была отмечена в Issue на GitHub и подтверждена при использовании Docker.

github llama.cpp · 14 д назад

Релиз LLaMA.cpp b9684 добавляет Conv_3D и бинарники для нескольких платформ

Релиз LLaMA.cpp b9684 вводит новую операцию 3D-конволюции (conv_3d) и включает оптимизированные реализации. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения аппаратного обеспечения, включая SYCL, Vulkan, CUDA и OpenVINO.

media r/LocalLLaMA · 14 д назад

Создание бюджетных моделей, которые превосходят свои размеры благодаря умному управлению на Rust

Новый фреймворк на основе Rust позволяет малым языковым моделям достигать производительности, сравнимой с более крупными моделями, используя эффективное управление памятью и оптимизированные вычисления. Подход снижает требования к ресурсам без ущерба для точности, делая продвинутую ИИ доступным для сред с ограниченными ресурсами.

media r/LocalLLaMA · 14 д назад

TRELLIS.2 теперь работает нативно на MLX

TRELLIS.2 был перенесён для нативной работы на MLX для процессоров Apple Silicon. Модель поддерживает входные изображения размером 512x512 и 1024x1024, время генерации составляет примерно 70 секунд для изображений 512x517 и от 300 до 700 секунд для изображений 1024x1024 на процессоре M4 Max с 128 ГБ единой памяти.

media r/LocalLLaMA · 14 д назад

GLM 5.2 на 4x Sparks: разумно?

Пользователь спрашивает, возможно ли запуск GLM-5.2 на четырех чипах Ascend GX10 (DGX Sparks). Он уточняет вопрос о 4-битной квантовании с использованием 512 ГБ единой памяти и оценивает скорости обработки промптов и токенов вывода для длины контекста 100 тысяч токенов, отметив, что в интернете нет доступных данных по производительности.

media Interconnects · 14 д назад

Блог о состоянии соединительных технологий, середина 2026 года

Автор формулирует три основные цели: уточнение эволюции передовых моделей ИИ, создание открытой экосистемы ИИ и формирование институтов, поддерживающих эти миссии. Соединительные технологии выступают независимым и прямым голосом в области мышления передовых моделей ИИ, и имеют техническую аудиторию более чем из 70 000 подписчиков. Блог сохраняет платные комментарии для предотвращения шума, генерируемого искусственным интеллектом, и автор планирует достичь 1000 платных подписчиков к лету, подчеркивая финансовую устойчивость и независимость в условиях роста стоимости услуг ИИ.

github llama.cpp · 14 д назад

llama.cpp release b9682 добавляет поддержку Vulkan и новые бинарники для платформ

Версия llama.cpp b9682 добавляет поддержку Vulkan для Linux и Windows, что позволяет использовать ускорение GPU. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах, с вариантами CPU и GPU, включая CUDA, OpenVINO, SYCL и ROCm.

media r/LocalLLaMA · 14 д назад

GLM-5.2 — победа для локальной ИИ

GLM-5.2, содержащий 753 миллиарда параметров и окно контекста в 1 миллион токенов, теперь доступен на локальной аппаратуры через квантование. Его лицензия MIT и обширные обучающие данные позволяют сообществу проводить настройку более мелких моделей, что обещает значительные улучшения для локальных решений ИИ.