Все статьи
media r/LocalLLaMA · 11 д назад

Написанное на листке бумаги математика по совокупным расходам на хостинг diffusiongemma в 2026 году

Анализ затрат показывает, что хостинг diffusiongemma при различных уровнях токенов пользователей приводит к ежемесячным расходам на пользователя от 1,7 евро до 122,8 евро. Исследование показывает, что использование агентного ИИ экономически нецелесообразно для совместного хостинга, хотя расходы могут снизиться при появлении новых GPU или ASIC и сокращении срока износа GPU.

media r/LocalLLaMA · 11 д назад

Два документа Word обмениваются содержимым через локальные LLMs — реальные примеры использования?

Прототип демонстрирует, как два документа Word обмениваются содержимым с помощью локальных LLMs, с итеративными взаимодействиями на нескольких шагах. Потенциальные практические примеры включают итеративное взаимодействие чернового документа и критического документа, или совместную работу спецификации и реализации документа, хотя реализуемость таких рабочих процессов остаётся неопределённой.

github llama.cpp · 11 д назад

llama.cpp release b9738: fixes CORS auth header forwarding and new binary builds

llama.cpp version b9738 исправляет прокси CORS для предотвращения передачи аутентификационных заголовков. В выпуске представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 11 д назад

Какой из моделей лучше: Qwen3.6-27B@BF16 или Step3.7@IQ4_XS?

Пользователь спрашивает, какой из моделей — Qwen3.6-27B при точности BF16 или Step3.7 с квантованием IQ4_XS — будет принимать более осознанные, автономные решения с меньшей необходимостью в руководстве человека. Вопрос сравнивает плотную модель высокой точности с более крупной моделью на основе MoE при низкой точности, указывая на компромиссы в памяти и производительности.

media r/LocalLLaMA · 11 д назад

Исследовательский проект: Внедрение естественного языкового стратегического намерения в многоагентные футбольные политики

Исследовательский проект изучает использование естественных языковых стратегических инструкций от людей для направления автономных ИИ-агентов в футбольной имитации. Система позволяет человеческим тренерам выдавать высокие инструкции, такие как "высокая давление" или "использовать левую сторону", которые ИИ-агенты затем адаптируют в реальном времени в динамической командной среде.

media r/LocalLLaMA · 11 д назад

Лучший локальный LLM для суммирования английских рассказов

Пользователь спрашивает, какой локальный LLM в настоящее время показывает наилучшие результаты при суммировании длинных английских рассказов. Запрос подчёркивает необходимость точных локальных LLM, способных обрабатывать многостраничные рассказы на английском языке.

media r/LocalLLaMA · 11 д назад

GLM 5.2 UD IQ2_M создает лучший изображение пеликана в формате SVG, которое когда-либо видели

Пользователь делится изображением, сгенерированным моделью GLM 5.2 UD IQ2_M, и называет его лучшим изображением пеликана в формате SVG, которое они когда-либо видели. Несмотря на низкую квантование, модель демонстрирует сильные возможности, и пользователь отмечает, что она может значительно лучше справляться с будущими высокопроизводительными аппаратными конфигурациями.

github llama.cpp · 11 д назад

ggml оптимизирует AMX с помощью плоской обработки разделов

Проект ggml повысил производительность AMX за счёт плоской обработки разделов по n_batch * M, обеспечивая участие всех потоков в квантовании. Данное изменение обеспечивает ускорение на 1,47 раза при различных моделях и конфигурациях аппаратуры на платформах CPU и GPU, при этом результаты демонстрируют стабильное сокращение времени инференса.

github llama.cpp · 11 д назад

Исправление индексатора DSA для GLM-5.2: тензоры помечены как не требуемые

Индексатор DSA для модели GLM-5.2 неправильно загружался на всех слоях, что приводило к сбоям из-за отсутствия тензоров. В обновлении тензоры индексатора помечаются как TENSOR_NOT_REQUIRED, что позволяет слоям без индексатора загружать как nullptr, обеспечивая полную работу внимания MLA. Модель DeepSeek-V3.2, имеющая единое индексирование, не затронута.

media r/LocalLLaMA · 11 д назад

Выпущена самая большая в мире база данных заголовков чатов от SupraLabs

SupraLabs выпустил отобранный набор заголовков чатов с 115 тысячами образцов, превысив предыдущий рекорд в 10 тысячах образцов. Отфильтрованная база данных доступна как "SupraLabs/chat-titles-filtered-115K", а также предоставляется неотфильтрованная версия с 150 тысячами образцов, а также устаревшая база данных из 12 тысяч образцов.

media Latent Space · 11 д назад

Получатели пространства скрытых получают скидку в размере 250 долларов за AIE WF 2026

Получатели пространства скрытых получают ограниченную скидку в размере 250 долларов на билеты на AIE WF 2026. Посетители также получают 40 тысяч долларов в виде кредитов спонсоров от компаний, таких как Warp, Datadog, SourceGraph, Stripe и Fireworks.

media r/LocalLLaMA · 11 д назад

Наилучшие настройки для 48 ГБ ОЗУ с Qwen 3.6 27B

Пользователь делится оптимизированными настройками для запуска Qwen 3.6 27B с квантованием Q8_0 на системе RTX 4090 и RTX 3090 с использованием llama.cpp. Конфигурация включает разбиение тензоров, 999 слоев на GPU, контекст длиной 250k, спекулятивное декодирование и единый кэш КВ, что обеспечивает пропускную способность 75-100t/s с поддержкой визуальных данных и MTP.

media r/LocalLLaMA · 11 д назад

Помощь с локальной системой RAG для документов (хранилище + ввод + запрос + выделение)

Пользователь разрабатывает локальную, оффлайн-систему поиска документов и интеграции с LLM, включающую функции хранения, ввода, запроса и выделения. Он просит советы по выбору векторных баз данных (например, pgvector в Postgres по сравнению с Qdrant), возможности использования GraphRAG в оффлайн-режиме и открытых инструментов для выделения документов с цитатами.

media r/LocalLLaMA · 11 д назад

7900XTX 24GB VRAM Runs Qwen 3.6 27B с 131k Context

Пользователь сообщает о успешном запуске модели Qwen 3.6 27B с квантованием Q6K+MTP и длиной контекста 131k на видеокарте 7900XTX с 24 ГБ VRAM. Это достигается с помощью квантования kvcache (Q5_0/Q4_0), что снижает использование VRAM на 12% по сравнению с Q8, позволяя модели работать со скоростью 55-60 токенов в секунду при использовании специальных флагов компиляции и аргументов llama.cpp.

media r/LocalLLaMA · 11 д назад

GLM 5.2 достигает 98% максимальной интеллекта с менее чем половиной токенов

Согласно техническому отчету z_ai, модель GLM 5.2 демонстрирует 98% максимального интеллекта в задачах программирования, используя менее половины своего общего бюджета токенов. Эффективность логического мышления модели значительно улучшилась: количество токенов увеличилось с 16,7 к до 36,7 к при переходе от GLM 5.1 к GLM 5.2, хотя настройки высокого уровня могут негативно сказаться на производительности локальных аппаратных средств.

media r/LocalLLaMA · 12 д назад

AMD Будущие GPU для развертывания LLM

AMD объявил о новых GPU, которые могут поддерживать локальные развертывания больших языковых моделей (LLM). Эти GPU разработаны с повышенной пропускной способностью памяти и вычислительными возможностями, что делает их подходящими для эффективного выполнения инференса и обучения больших языковых моделей в отдельных локальных системах.

media r/LocalLLaMA · 12 д назад

результаты оценок llama.cpp B70 с использованием SYCL

Оценки показывают, что llama.cpp B70 с использованием бэкенда SYCL хорошо справляется с моделями, такими как gemma4 12B и 26B, достигая пропускной способности до 5662,45 t/s для модели E2B. Производительность значительно падает в режиме tg128, при этом модель qwen35 27B достигает лишь 15,42 t/s, что указывает на необходимость оптимизации.

media r/LocalLLaMA · 12 д назад

Локальная ИИ для локальных файлов офиса

Пользователь Reddit спрашивает, какой ИИ-агент лучше всего подходит для обработки локальных файлов офиса, таких как Excel, PDF, Word и JSON. В посте приводятся запросы к пользовательским опыту и реализованным рабочим процессам для таких задач.