Все статьи
media r/LocalLLaMA · 11 д назад

Лучший локальный LLM для суммирования английских рассказов

Пользователь спрашивает, какой локальный LLM в настоящее время показывает наилучшие результаты при суммировании длинных английских рассказов. Запрос подчёркивает необходимость точных локальных LLM, способных обрабатывать многостраничные рассказы на английском языке.

media r/LocalLLaMA · 11 д назад

GLM 5.2 UD IQ2_M создает лучший изображение пеликана в формате SVG, которое когда-либо видели

Пользователь делится изображением, сгенерированным моделью GLM 5.2 UD IQ2_M, и называет его лучшим изображением пеликана в формате SVG, которое они когда-либо видели. Несмотря на низкую квантование, модель демонстрирует сильные возможности, и пользователь отмечает, что она может значительно лучше справляться с будущими высокопроизводительными аппаратными конфигурациями.

github llama.cpp · 11 д назад

ggml оптимизирует AMX с помощью плоской обработки разделов

Проект ggml повысил производительность AMX за счёт плоской обработки разделов по n_batch * M, обеспечивая участие всех потоков в квантовании. Данное изменение обеспечивает ускорение на 1,47 раза при различных моделях и конфигурациях аппаратуры на платформах CPU и GPU, при этом результаты демонстрируют стабильное сокращение времени инференса.

github llama.cpp · 11 д назад

Исправление индексатора DSA для GLM-5.2: тензоры помечены как не требуемые

Индексатор DSA для модели GLM-5.2 неправильно загружался на всех слоях, что приводило к сбоям из-за отсутствия тензоров. В обновлении тензоры индексатора помечаются как TENSOR_NOT_REQUIRED, что позволяет слоям без индексатора загружать как nullptr, обеспечивая полную работу внимания MLA. Модель DeepSeek-V3.2, имеющая единое индексирование, не затронута.

media r/LocalLLaMA · 11 д назад

Выпущена самая большая в мире база данных заголовков чатов от SupraLabs

SupraLabs выпустил отобранный набор заголовков чатов с 115 тысячами образцов, превысив предыдущий рекорд в 10 тысячах образцов. Отфильтрованная база данных доступна как "SupraLabs/chat-titles-filtered-115K", а также предоставляется неотфильтрованная версия с 150 тысячами образцов, а также устаревшая база данных из 12 тысяч образцов.

media Latent Space · 11 д назад

Получатели пространства скрытых получают скидку в размере 250 долларов за AIE WF 2026

Получатели пространства скрытых получают ограниченную скидку в размере 250 долларов на билеты на AIE WF 2026. Посетители также получают 40 тысяч долларов в виде кредитов спонсоров от компаний, таких как Warp, Datadog, SourceGraph, Stripe и Fireworks.

media r/LocalLLaMA · 11 д назад

Наилучшие настройки для 48 ГБ ОЗУ с Qwen 3.6 27B

Пользователь делится оптимизированными настройками для запуска Qwen 3.6 27B с квантованием Q8_0 на системе RTX 4090 и RTX 3090 с использованием llama.cpp. Конфигурация включает разбиение тензоров, 999 слоев на GPU, контекст длиной 250k, спекулятивное декодирование и единый кэш КВ, что обеспечивает пропускную способность 75-100t/s с поддержкой визуальных данных и MTP.

media r/LocalLLaMA · 11 д назад

Помощь с локальной системой RAG для документов (хранилище + ввод + запрос + выделение)

Пользователь разрабатывает локальную, оффлайн-систему поиска документов и интеграции с LLM, включающую функции хранения, ввода, запроса и выделения. Он просит советы по выбору векторных баз данных (например, pgvector в Postgres по сравнению с Qdrant), возможности использования GraphRAG в оффлайн-режиме и открытых инструментов для выделения документов с цитатами.

media r/LocalLLaMA · 11 д назад

7900XTX 24GB VRAM Runs Qwen 3.6 27B с 131k Context

Пользователь сообщает о успешном запуске модели Qwen 3.6 27B с квантованием Q6K+MTP и длиной контекста 131k на видеокарте 7900XTX с 24 ГБ VRAM. Это достигается с помощью квантования kvcache (Q5_0/Q4_0), что снижает использование VRAM на 12% по сравнению с Q8, позволяя модели работать со скоростью 55-60 токенов в секунду при использовании специальных флагов компиляции и аргументов llama.cpp.

media r/LocalLLaMA · 11 д назад

GLM 5.2 достигает 98% максимальной интеллекта с менее чем половиной токенов

Согласно техническому отчету z_ai, модель GLM 5.2 демонстрирует 98% максимального интеллекта в задачах программирования, используя менее половины своего общего бюджета токенов. Эффективность логического мышления модели значительно улучшилась: количество токенов увеличилось с 16,7 к до 36,7 к при переходе от GLM 5.1 к GLM 5.2, хотя настройки высокого уровня могут негативно сказаться на производительности локальных аппаратных средств.

media r/LocalLLaMA · 11 д назад

AMD Будущие GPU для развертывания LLM

AMD объявил о новых GPU, которые могут поддерживать локальные развертывания больших языковых моделей (LLM). Эти GPU разработаны с повышенной пропускной способностью памяти и вычислительными возможностями, что делает их подходящими для эффективного выполнения инференса и обучения больших языковых моделей в отдельных локальных системах.

media r/LocalLLaMA · 11 д назад

результаты оценок llama.cpp B70 с использованием SYCL

Оценки показывают, что llama.cpp B70 с использованием бэкенда SYCL хорошо справляется с моделями, такими как gemma4 12B и 26B, достигая пропускной способности до 5662,45 t/s для модели E2B. Производительность значительно падает в режиме tg128, при этом модель qwen35 27B достигает лишь 15,42 t/s, что указывает на необходимость оптимизации.

media r/LocalLLaMA · 11 д назад

Локальная ИИ для локальных файлов офиса

Пользователь Reddit спрашивает, какой ИИ-агент лучше всего подходит для обработки локальных файлов офиса, таких как Excel, PDF, Word и JSON. В посте приводятся запросы к пользовательским опыту и реализованным рабочим процессам для таких задач.

media r/LocalLLaMA · 11 д назад

Проблема вызова инструментов в открытом Qwen3.6 27B 8K

Пользователи сообщают, что модель Qwen3.6 27B 8K иногда останавливается при генерации вызова инструмента, особенно когда пользователь отходит. Проблема решается тем, что инструментальный вызов вручную вставляется обратно в промпт, что позволяет модели продолжить выполнение. Вызов инструмента включает bash-функцию для поиска проходящих тестов в кодовой базе.

media r/LocalLLaMA · 11 д назад

Какая лучшая книга для изучения математики в области машинного обучения и глубокого обучения?

Пользователь просит рекомендации по книгам, чтобы сформировать прочную математическую основу для понимания и внесения вклада в области машинного обучения и глубокого обучения, особенно в связи с их интересом к архитектурам искусственного интеллекта и больших языковых моделей. Они признают, что интуитивное понимание ограничено без должной математической подготовки, и ищут структурированные ресурсы, чтобы дополнить свой текущий путь обучения через каналы, такие как 3b1b.

media r/LocalLLaMA · 11 д назад

Локальный агент доступа к веб-сайтам через SearXNG и Scrapling

Локальный агент может получить доступ к веб-сайтам без использования платных API, используя саморазвернутый SearXNG для поиска и Scrapling с помощью Trafilatura для извлечения содержимого страниц. Настройка избегает зависимостей от поставщиков, использует открытые инструменты и обеспечивает результаты поиска и содержимое страниц в формате Markdown, с резервными вариантами для CAPTCH и других защитных механизмов.