Все статьи
media r/LocalLLaMA · 13 д назад

Лаборатория Лин Цзюня по ИИ завершает раунд финансирования на оценке в 2 миллиарда долларов

Лаборатория Лин Цзюня по ИИ завершила раунд финансирования, в котором компания оценивается в 2 миллиарда долларов. Лаборатория известна своими разработками в серии крупных языковых моделей Qwen, а данный раунд финансирования свидетельствует о продолжающейся поддержке инициатив по открытым исходным кодам в области ИИ.

github llama.cpp · 13 д назад

ggml-cpu: Включать бэкенд POWER11 условно в зависимости от поддержки компилятором

Проект ggml-cpu теперь условно включает бэкенд POWER11 в ggml в зависимости от поддержки компилятором опции -mcpu=power11. Это предотвращает сбои при сборке в текущих GCC/Clang инструментальных цепочках, при этом сохраняя совместимость с будущими версиями. Обновления CMakeLists.txt поддерживают это изменение, и для обоих архитектур P10 и P11 используется опция -mcpu=power10.

github llama.cpp · 13 д назад

llama.cpp Release b9692 Adds New Binaries and Fixes

llama.cpp версия b9692 вводит новые бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе включены обновления для поддержки Vulkan, ROCm, OpenVINO, SYCL и HIP, а также исправления, удаляющие использование размера батча в llava_uhd.

media r/LocalLLaMA · 13 д назад

Lemonade v10.8 Выпускает автоматическое управление памятью, поддержку облака и инструменты MCP

Lemonade v10.8 вводит динамическое управление памятью VRAM, которое автоматически выгружает неиспользуемые модели и уменьшает кэш KV для освобождения памяти GPU. Вводится поддержка облака для поставщиков, совместимых с OpenAI, что позволяет осуществлять локальное обслуживание моделей с возможностью маршрутизации в облако. Новый веб-интерфейс MCP открывает локальные модели как инструменты через POST /mcp, позволяя использовать локальные модели как инструменты в приложениях, оснащенных MCP.

media r/LocalLLaMA · 13 д назад

Видео о выпуске GLM 5.2 создано с использованием GLM 5.2

Создано и опубликовано видео, демонстрирующее возможности GLM 5.2. Пользователи отмечают, что модель хорошо справляется с задачами веб-разработки, хотя по-прежнему уступает в генерации видео передовыми моделями, такими как Gemini 3.1 Pro. Длинные ответы часто прерываются на OpenRouter, что заставляет пользователей переключаться на другие поставщики, чтобы получить полные ответы.

github llama.cpp · 13 д назад

Бэкенд Metal добавляет поддержку f16 и bf16 для оператора concat

Бэкенд Metal в llama.cpp был расширен для поддержки типов тензоров f16 и bf16 для оператора concat, в дополнение к существующей поддержке f32 и i32. Обновление включает специализированные шаблоны ядер, обновленные получатели трубопровода и улучшенную диспетчеризацию ядер по типам, с участием pi:llama.cpp/Qwen3.6-27B.

github llama.cpp · 13 д назад

llama.cpp выпускает b9690 с оператором rope_back и бинарниками для разных платформ

Версия llama.cpp b9690 вводит оператор rope_back, реализованный путем повторного использования существующих ядер rope с функцией константы для переключения вращения вперед/назад. В выпуске представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, ROCm, OpenVINO и SYCL.

media r/LocalLLaMA · 13 д назад

Мы срочно нуждаемся в модели 80-160B для устройств с единой памятью

Пользователи с единой памятью 80-160 ГБ или с высокоскоростной ОЗУ сталкиваются с ограничениями из-за отсутствия моделей, адаптированных к их оборудованию. Существующие модели либо слишком малы для обеспечения производительности, либо слишком большие для ограничений памяти, что приводит к требованию разработки моделей на 100 миллиардов параметров, таких как Qwen 3.5 122B или Gemma 4 122B, чтобы лучше обслуживать пользователей с AMD AI Pro, RTX 3090/5090 или устройствами Apple.

media Don't Worry About the Vase · 13 д назад

Без проникновения: сценарий "Исправьте этот код" в Fable был фальшивым

Статья подтверждает, что не произошло реального проникновения в ИИ Fable от Anthropic. Вместо этого проводился тест с фальшивым кодом, содержащим встроенные уязвимости, при котором Fable отказался проверять код и отвечал только на запрос исправить этот код после ручных действий. Кейти Муссурис из Luta Security утверждает, что такой сценарий не должен вызывать контроль экспорта, называя его намеренным, искусственно созданным тестом, который оспаривает утверждения о нарушении безопасности.

media r/LocalLLaMA · 13 д назад

США отложили включение в чёрный список китайской компании DeepSeek

Источники сообщают, что США отложили включение в чёрный список китайской компании DeepSeek по вопросам искусственного интеллекта. Более 100 компаний были признаны угрозой для безопасности в ходе этого решения.

github llama.cpp · 13 д назад

llama.cpp Release b9687 Adds New Binaries and Fixes

llama.cpp version b9687 вводит новые бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе предусмотрена поддержка Vulkan, ROCm, OpenVINO, SYCL и HIP, с обновлениями, улучшающими проверку устройств и производительность на доступном оборудовании.

github llama.cpp · 13 д назад

llama.cpp выпускает версию b9688 с новыми API и бинарниками для разных платформ

llama.cpp выпускает версию b9688, добавляя API для управления моделями и в реальном времени обновлений SSE. В релизе включены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и ускорения, такие как Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 13 д назад

Я пообучил модель для надежного броска кубика

Пользователь обучил языковую модель бросать кубик, обеспечивая, что каждое число появляется примерно один раз из шести бросков. В посте подчеркивается, что популярные LLM часто отвечают '4', когда спрашивают о броске кубика, что иллюстрирует более широкую проблему в обучении на основе вознаграждений: модели часто не эффективно исследуют пространство и вместо этого следуют известным паттернам.

media r/LocalLLaMA · 13 д назад

PSA: unsloth/GLM-5.2-GGUF находится в процессе загрузки

Пользователь Reddit заметил, что репозиторий unsloth/GLM-5.2-GGUF был создан всего полчаса назад и на данный момент содержит только README. Они подозревают, что файлы модели GGUF загружаются, и поделились ссылкой на репозиторий.

media Latent Space · 13 д назад

Radical AI достигает ускорения в 10 раз в открытии материалов

Radical AI ускорил открытие материалов, создав и исследуя 1200 сплавов за шесть месяцев — почти в 10 раз быстрее, чем цель DARPA/GE MACH по созданию 500 сплавов за год. Их автономные лаборатории используют искусственных ученых для генерации и проверки гипотез в замкнутых системах, что привело к созданию 300 новых материалов, из которых 10 демонстрируют новые, передовые свойства, которые сейчас разрабатываются для коммерческого применения.

media r/LocalLLaMA · 13 д назад

советы по оптимизации памяти GPU для llama.cpp

Пользователи llama.cpp могут освободить память GPU, отключив offload mmproj, используя уменьшенные типы KV-кэша и настраивая spec-draft-n-max. Параметры, такие как --ctx-checkpoints и --fit-target, оказывают минимальное влияние, в то время как --parallel помогает в многопользовательских средах, но не подходит для однопользовательских настроек.

media r/LocalLLaMA · 13 д назад

GLM-5.2-FP8 HGX-H200 SGLang Docker Deployment Config

Пользователь делится конфигурацией Docker для запуска GLM-5.2-FP8 на аппаратных средствах HGX-H200 с использованием SGLang. Настройка достигает длины контекста 262k и скорости 70 токенов в секунду при 8 параллелизме тензоров, используя долю памяти 0.83. Пользователь отмечает, что официальные рецепты vLLM не работают на H200 из-за ограничений квантования FP8 кэша KV на архитектуре DSV3.

media r/LocalLLaMA · 13 д назад

Мы создали открытый источник UI-кит для RAG/агентов документов

Extend AI выпустил открытый источник UI-кит с 15 компонентами для просмотра PDF, DOCX и XLSX, включая рамки цитирования, загрузку файлов, электронную подпись и файловую систему. Инструмент, лицензированный MIT и полностью настраиваемый, изначально был внутренним, но теперь открыт благодаря спросу со стороны клиентов, и поддерживается для масштабируемости и обработки редких случаев в высоконагруженных процессах обработки документов.

github llama.cpp · 13 д назад

Релиз LLaMA.cpp b9685 добавляет SYCL Dev2Dev Memcpy и несколько платформенных бинарных файлов

Версия LLaMA.cpp b9685 вводит функциональность dev2dev memcpy на основе SYCL, перемещая GGML_SYCL_DEV2DEV_MEMCPY в таблицу на уровне выполнения и улучшает обнаружение взаимодействия между процессами. В релизе представлены предварительно скомпилированные бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, ROCm, OpenVINO и SYCL (FP32/FP16).

github llama.cpp · 13 д назад

llama.cpp Release b9686: Исправление сегфолта при длинных запросах для Eagle3

Версия llama.cpp b9686 исправляет сегфолт, возникающий при длинных запросах на модели Eagle3. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.