Все статьи
github llama.cpp · 14 д назад

llama.cpp выпускает b9690 с оператором rope_back и бинарниками для разных платформ

Версия llama.cpp b9690 вводит оператор rope_back, реализованный путем повторного использования существующих ядер rope с функцией константы для переключения вращения вперед/назад. В выпуске представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, ROCm, OpenVINO и SYCL.

media r/LocalLLaMA · 14 д назад

Мы срочно нуждаемся в модели 80-160B для устройств с единой памятью

Пользователи с единой памятью 80-160 ГБ или с высокоскоростной ОЗУ сталкиваются с ограничениями из-за отсутствия моделей, адаптированных к их оборудованию. Существующие модели либо слишком малы для обеспечения производительности, либо слишком большие для ограничений памяти, что приводит к требованию разработки моделей на 100 миллиардов параметров, таких как Qwen 3.5 122B или Gemma 4 122B, чтобы лучше обслуживать пользователей с AMD AI Pro, RTX 3090/5090 или устройствами Apple.

media Don't Worry About the Vase · 14 д назад

Без проникновения: сценарий "Исправьте этот код" в Fable был фальшивым

Статья подтверждает, что не произошло реального проникновения в ИИ Fable от Anthropic. Вместо этого проводился тест с фальшивым кодом, содержащим встроенные уязвимости, при котором Fable отказался проверять код и отвечал только на запрос исправить этот код после ручных действий. Кейти Муссурис из Luta Security утверждает, что такой сценарий не должен вызывать контроль экспорта, называя его намеренным, искусственно созданным тестом, который оспаривает утверждения о нарушении безопасности.

media r/LocalLLaMA · 14 д назад

США отложили включение в чёрный список китайской компании DeepSeek

Источники сообщают, что США отложили включение в чёрный список китайской компании DeepSeek по вопросам искусственного интеллекта. Более 100 компаний были признаны угрозой для безопасности в ходе этого решения.

github llama.cpp · 14 д назад

llama.cpp Release b9687 Adds New Binaries and Fixes

llama.cpp version b9687 вводит новые бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе предусмотрена поддержка Vulkan, ROCm, OpenVINO, SYCL и HIP, с обновлениями, улучшающими проверку устройств и производительность на доступном оборудовании.

github llama.cpp · 14 д назад

llama.cpp выпускает версию b9688 с новыми API и бинарниками для разных платформ

llama.cpp выпускает версию b9688, добавляя API для управления моделями и в реальном времени обновлений SSE. В релизе включены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и ускорения, такие как Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 14 д назад

Я пообучил модель для надежного броска кубика

Пользователь обучил языковую модель бросать кубик, обеспечивая, что каждое число появляется примерно один раз из шести бросков. В посте подчеркивается, что популярные LLM часто отвечают '4', когда спрашивают о броске кубика, что иллюстрирует более широкую проблему в обучении на основе вознаграждений: модели часто не эффективно исследуют пространство и вместо этого следуют известным паттернам.

media r/LocalLLaMA · 14 д назад

PSA: unsloth/GLM-5.2-GGUF находится в процессе загрузки

Пользователь Reddit заметил, что репозиторий unsloth/GLM-5.2-GGUF был создан всего полчаса назад и на данный момент содержит только README. Они подозревают, что файлы модели GGUF загружаются, и поделились ссылкой на репозиторий.

media Latent Space · 14 д назад

Radical AI достигает ускорения в 10 раз в открытии материалов

Radical AI ускорил открытие материалов, создав и исследуя 1200 сплавов за шесть месяцев — почти в 10 раз быстрее, чем цель DARPA/GE MACH по созданию 500 сплавов за год. Их автономные лаборатории используют искусственных ученых для генерации и проверки гипотез в замкнутых системах, что привело к созданию 300 новых материалов, из которых 10 демонстрируют новые, передовые свойства, которые сейчас разрабатываются для коммерческого применения.

media r/LocalLLaMA · 14 д назад

советы по оптимизации памяти GPU для llama.cpp

Пользователи llama.cpp могут освободить память GPU, отключив offload mmproj, используя уменьшенные типы KV-кэша и настраивая spec-draft-n-max. Параметры, такие как --ctx-checkpoints и --fit-target, оказывают минимальное влияние, в то время как --parallel помогает в многопользовательских средах, но не подходит для однопользовательских настроек.

media r/LocalLLaMA · 14 д назад

GLM-5.2-FP8 HGX-H200 SGLang Docker Deployment Config

Пользователь делится конфигурацией Docker для запуска GLM-5.2-FP8 на аппаратных средствах HGX-H200 с использованием SGLang. Настройка достигает длины контекста 262k и скорости 70 токенов в секунду при 8 параллелизме тензоров, используя долю памяти 0.83. Пользователь отмечает, что официальные рецепты vLLM не работают на H200 из-за ограничений квантования FP8 кэша KV на архитектуре DSV3.

media r/LocalLLaMA · 14 д назад

Мы создали открытый источник UI-кит для RAG/агентов документов

Extend AI выпустил открытый источник UI-кит с 15 компонентами для просмотра PDF, DOCX и XLSX, включая рамки цитирования, загрузку файлов, электронную подпись и файловую систему. Инструмент, лицензированный MIT и полностью настраиваемый, изначально был внутренним, но теперь открыт благодаря спросу со стороны клиентов, и поддерживается для масштабируемости и обработки редких случаев в высоконагруженных процессах обработки документов.

github llama.cpp · 14 д назад

Релиз LLaMA.cpp b9685 добавляет SYCL Dev2Dev Memcpy и несколько платформенных бинарных файлов

Версия LLaMA.cpp b9685 вводит функциональность dev2dev memcpy на основе SYCL, перемещая GGML_SYCL_DEV2DEV_MEMCPY в таблицу на уровне выполнения и улучшает обнаружение взаимодействия между процессами. В релизе представлены предварительно скомпилированные бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, ROCm, OpenVINO и SYCL (FP32/FP16).

github llama.cpp · 14 д назад

llama.cpp Release b9686: Исправление сегфолта при длинных запросах для Eagle3

Версия llama.cpp b9686 исправляет сегфолт, возникающий при длинных запросах на модели Eagle3. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 14 д назад

LoopCoder-V2: Модель PLT с двумя циклами достигает наилучшего соотношения выгоды и затрат

LoopCoder-V2 — это модель кода на 7B параметров, обученная на параллельном трансформере (PLT), и обученная на 18T токенов смешанных текстовых и кодовых данных. Вариант с двумя циклами достигает наилучшего соотношения выгоды и затрат, увеличивая SWE-bench Verified с 43.0 до 64.4, в то время как три или более циклов приводят к регрессии из-за роста позиционного несоответствия и нестабильных обновлений.

media r/LocalLLaMA · 14 д назад

GameCraft-Bench: Может ли агент создавать развертываемые игры в реальном движке игры?

GameCraft-Bench оценивает, может ли большой языковой модель создавать развертываемые игры в целом с использованием реального движка игры. Бенчмарк включает оценку таких основных моделей, как Opus-4.7 и GPT-5.5, и интересуется тем, как модели среднего размера (например, 30-70 миллиардов параметров) выполняют задачи в области разработки игр.

media r/LocalLLaMA · 14 д назад

Gemma 4 E2B работает со скоростью 255 токенов в секунду в браузере с использованием WebGPU

Gemma 4 E2B достигает скорости 255 токенов в секунду в браузере на устройстве M4 Max с использованием ядер WebGPU. Демо и ядра теперь доступны на Hugging Face для публичного использования.

blog Simon Willison · 14 д назад

ИИ требует большей инженерной дисциплины

В 2025 году экономика производства кода изменилась кардинально, что сделало генерацию кода практически бесплатной и мгновенной. Этот сдвиг вызвал культурный сдвиг в разработке программного обеспечения, при котором строки кода перешли от тщательного отбора к тому, что они сталиDisposable и перегенерируемыми.

media r/LocalLLaMA · 15 д назад

Кто-то еще не может найти веб-интерфейс в последней версии llama.cpp b9680?

Пользователи сообщают, что веб-интерфейс отсутствует в последней версии llama.cpp b9680, в то время как версия b9664 работает корректно. Эта проблема была отмечена в Issue на GitHub и подтверждена при использовании Docker.

github llama.cpp · 15 д назад

Релиз LLaMA.cpp b9684 добавляет Conv_3D и бинарники для нескольких платформ

Релиз LLaMA.cpp b9684 вводит новую операцию 3D-конволюции (conv_3d) и включает оптимизированные реализации. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения аппаратного обеспечения, включая SYCL, Vulkan, CUDA и OpenVINO.