Open weights
github llama.cpp · 4 д назад

Исправление случайных сбоев в test-args-parser на Windows

Патч устраняет случайные сбои в тесте test-args-parser на Windows, изменяя перекрытие argv так, чтобы применяться только при совпадении argc, предотвращая перезапись программных аргументов. Это устраняет сбой быстрого отказа в рабочем процессе OpenVINO на Windows, при этом сохраняя обработку UTF-8 для реальных исполняемых файлов.

media r/LocalLLaMA · 5 д назад

Теперь вы можете конвертировать квантованные модели EXL3 на Mac с процессором Apple Silicon

Пользователи теперь могут конвертировать и запускать квантованные модели EXL3 на Mac с процессором Apple Silicon и объёмом памяти 64 ГБ и более. Проверки показывают, что модели, такие как MiniCPM5 и Qwen3.6-27B, достигают производительности, сравнимой с или немного ниже производительности при конвертации на картах RTX, при этом EXL3 обеспечивает более высокое качество квантования по сравнению с MLX.

media r/LocalLLaMA · 5 д назад

Написанное на листке бумаги математика по совокупным расходам на хостинг diffusiongemma в 2026 году

Анализ затрат показывает, что хостинг diffusiongemma при различных уровнях токенов пользователей приводит к ежемесячным расходам на пользователя от 1,7 евро до 122,8 евро. Исследование показывает, что использование агентного ИИ экономически нецелесообразно для совместного хостинга, хотя расходы могут снизиться при появлении новых GPU или ASIC и сокращении срока износа GPU.

media r/LocalLLaMA · 5 д назад

Лучший локальный LLM для суммирования английских рассказов

Пользователь спрашивает, какой локальный LLM в настоящее время показывает наилучшие результаты при суммировании длинных английских рассказов. Запрос подчёркивает необходимость точных локальных LLM, способных обрабатывать многостраничные рассказы на английском языке.

github llama.cpp · 5 д назад

ggml оптимизирует AMX с помощью плоской обработки разделов

Проект ggml повысил производительность AMX за счёт плоской обработки разделов по n_batch * M, обеспечивая участие всех потоков в квантовании. Данное изменение обеспечивает ускорение на 1,47 раза при различных моделях и конфигурациях аппаратуры на платформах CPU и GPU, при этом результаты демонстрируют стабильное сокращение времени инференса.

media r/LocalLLaMA · 5 д назад

Выпущена самая большая в мире база данных заголовков чатов от SupraLabs

SupraLabs выпустил отобранный набор заголовков чатов с 115 тысячами образцов, превысив предыдущий рекорд в 10 тысячах образцов. Отфильтрованная база данных доступна как "SupraLabs/chat-titles-filtered-115K", а также предоставляется неотфильтрованная версия с 150 тысячами образцов, а также устаревшая база данных из 12 тысяч образцов.

media r/LocalLLaMA · 5 д назад

Наилучшие настройки для 48 ГБ ОЗУ с Qwen 3.6 27B

Пользователь делится оптимизированными настройками для запуска Qwen 3.6 27B с квантованием Q8_0 на системе RTX 4090 и RTX 3090 с использованием llama.cpp. Конфигурация включает разбиение тензоров, 999 слоев на GPU, контекст длиной 250k, спекулятивное декодирование и единый кэш КВ, что обеспечивает пропускную способность 75-100t/s с поддержкой визуальных данных и MTP.

media r/LocalLLaMA · 5 д назад

Помощь с локальной системой RAG для документов (хранилище + ввод + запрос + выделение)

Пользователь разрабатывает локальную, оффлайн-систему поиска документов и интеграции с LLM, включающую функции хранения, ввода, запроса и выделения. Он просит советы по выбору векторных баз данных (например, pgvector в Postgres по сравнению с Qdrant), возможности использования GraphRAG в оффлайн-режиме и открытых инструментов для выделения документов с цитатами.

media r/LocalLLaMA · 5 д назад

7900XTX 24GB VRAM Runs Qwen 3.6 27B с 131k Context

Пользователь сообщает о успешном запуске модели Qwen 3.6 27B с квантованием Q6K+MTP и длиной контекста 131k на видеокарте 7900XTX с 24 ГБ VRAM. Это достигается с помощью квантования kvcache (Q5_0/Q4_0), что снижает использование VRAM на 12% по сравнению с Q8, позволяя модели работать со скоростью 55-60 токенов в секунду при использовании специальных флагов компиляции и аргументов llama.cpp.

media r/LocalLLaMA · 5 д назад

Какая лучшая книга для изучения математики в области машинного обучения и глубокого обучения?

Пользователь просит рекомендации по книгам, чтобы сформировать прочную математическую основу для понимания и внесения вклада в области машинного обучения и глубокого обучения, особенно в связи с их интересом к архитектурам искусственного интеллекта и больших языковых моделей. Они признают, что интуитивное понимание ограничено без должной математической подготовки, и ищут структурированные ресурсы, чтобы дополнить свой текущий путь обучения через каналы, такие как 3b1b.

media r/LocalLLaMA · 5 д назад

Локальный агент доступа к веб-сайтам через SearXNG и Scrapling

Локальный агент может получить доступ к веб-сайтам без использования платных API, используя саморазвернутый SearXNG для поиска и Scrapling с помощью Trafilatura для извлечения содержимого страниц. Настройка избегает зависимостей от поставщиков, использует открытые инструменты и обеспечивает результаты поиска и содержимое страниц в формате Markdown, с резервными вариантами для CAPTCH и других защитных механизмов.

media r/LocalLLaMA · 5 д назад

SupraLabs выпустил supra-title-FFT-preview с 115K образцов

SupraLabs представил модель генерации чат-заголовков supra-title-FFT-preview, обученную на 115K образцов из отфильтрованного датасета, расширяя охват по сравнению с предыдущей моделью из 12K образцов. Модель использует полную настройку на LiquidAI/LFM2.5-350M-Base с точностью BF16 и предназначена для генерации заголовков чатов в однозадачном режиме, доступна через Hugging Face и поддерживает прямую загрузку или развертывание с помощью vLLM.

media r/LocalLLaMA · 5 д назад

Внимание Алгебра — грамматика, переводящая естественный язык в спектрограммы

Attention Algebra — это прототип, который переводит естественный язык в алгебраические выражения, отображает их на математические динамики и визуализирует результат в виде спектрограммы. Он рассматривает язык как потерянную проекцию высокомерных состояний, предполагая, что исходные паттерны внимания, сгруппированные в функции, служат «ДНК» текста, позволяя эффективно строить цепочки рассуждений, сокращая количество токенов с 20 тысяч до 4 тысяч.

github llama.cpp · 5 д назад

ggml-webgpu Добавляет переключатели адаптера для поддержки F16 на Vulkan и NVIDIA

Проект ggml-webgpu добавил переключатели адаптера для поддержки полупrecision (F16) на видеокартах Vulkan и NVIDIA. Обновление позволяет повысить производительность на совместимом оборудовании на нескольких платформах, включая macOS, Linux, Android, Windows и openEuler, с конкретными сборками для архитектур ARM и x64.

media r/LocalLLaMA · 5 д назад

Лучшие локальные агенты - июнь 2026

Обсуждение определяет лучшие локальные ИИ-агенты, доступные сегодня, подчеркивая модели с открытым весом и выполнение на локальной аппаратной части. В посте определяется понятие "агентов" как автономного программного обеспечения, которое самостоятельно принимает решения о действиях без предварительной программы, в отличие от инструментов, таких как IFTTT или Apple Shortcuts, и устанавливаются правила, требующие локальной развертывания и программного обеспечения агентов на открытом источнике как основное внимание.

github llama.cpp · 5 д назад

Релиз LLaMA.cpp b9729: Новые бинарники и поддержка платформ

LLaMA.cpp выпускает версию b9729 с бинарниками для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе включены поддержка CPU, Vulkan, OpenVINO, SYCL и ROCm, а также новый пакет интерфейса. Удалены внутренние ссылки на 'webui'.

media r/LocalLLaMA · 5 д назад

Как настроить оптимальные параметры llama.cpp для моделей gemma 4 на GPU от AMD

Пользователи, ищущие оптимальные настройки llama.cpp для моделей gemma 4 на GPU от AMD с 16 ГБ ОЗУ, спрашивают, необходима ли проба и ошибка. Они приводят стандартные настройки Google для температуры, top-p и top-k, но отмечают непостоянные результаты, что указывает на необходимость более целенаправленных рекомендаций, выходящих за рамки официальной документации.