Все статьи
media r/LocalLLaMA · 11 д назад

Лучшая открытая модель визуального анализа, работающая на RTX 6000 Pro

Пользователь ищет текущую лучшую открытую модель визуального анализа, которая может работать на RTX 6000 Pro для распознавания текста и классификации исторических сканированных документов. Он отмечает, что Gemma 4 31B работает хорошо и превосходит визуальный декодер Qwen 3.6, и просит рекомендации по моделям за пределами этой модели.

media r/LocalLLaMA · 11 д назад

semantic-memory: локальная база знаний с типизированными графовыми рёбрами

semantic-memory — это локальная база знаний на языке Rust, которая объединяет поисковые методы BM25, векторного поиска и синтеза по рекурсивному ранжированию с SQLite. В ней реализованы типизированные графовые рёбра для причинных, временных и семантических связей, отслеживание происхождения, би-временная хранение и адаптивное направление запросов, поддерживая 18 инструментов MCP для ИИ-агентов. Все компоненты работают локально без зависимостей от облака, ключей API или телеметрии.

media r/LocalLLaMA · 11 д назад

Что я могу запустить на моей системе Tesla V100 32GB?

С GPU Tesla V100 32GB и системой из двух процессоров Xeon на Dell PowerEdge 730 с 384 ГБ DDR4 и несколькими терабайтами хранилища пользователи могут запускать локальные большие языковые модели (LLM) для экспериментов. Объем памяти и хранилища системы обеспечивает эффективное локальное выполнение и обучение моделей.

media r/LocalLLaMA · 11 д назад

Что делают люди с локальными моделями и какие инструменты они используют?

Пользователь спрашивает о практическом применении локальных моделей и о том, какие инструменты эффективны для задач, таких как программирование, особенно в качестве альтернативы веб-интерфейсам, таким как Claude.ai. Они упоминают попытку использования OpenWebUI, но отмечают, что он недостаточно мощен без значительной настройки.

media r/LocalLLaMA · 11 д назад

Что происходит, когда подписки на LLM перестают поддерживаться?

Поставщики LLM в настоящее время поддерживали дорогостоящее использование API для создания экосистем, планируя повысить цены позже. По мере того, как поддержка уменьшается, пользователи могут столкнуться с резким ростом цен — например, до 2000 долларов в месяц — что сделает доступ к сервису дорогостоящим и угрожает широкому внедрению, особенно для лиц, которые зависят от недорогого оборудования для запуска моделей.

media r/LocalLLaMA · 11 д назад

Введение в Noema Atlas: распределение моделей на основе пир-топ-пир

Noema Atlas — это бесплатная, открытая система пир-топ-пир, которая обеспечивает децентрализованное распространение локальных моделей больших языковых моделей с использованием Iroh и хеширования BLAKE3. Она позволяет пользователям делиться и получать модели напрямую с узлов по всему миру, с Hugging Face и зеркал как резервные варианты, и поддерживает восстановление моделей, удалённых с Hugging Face, через приватное распространение.

github llama.cpp · 11 д назад

llama.cpp Release b9742: Обновлено с использованием заполненного шага для весов SSM-conv

Версия llama.cpp b9742 вводит заполненный шаг для весов SSM-conv, что повышает эффективность операций в нейронных сетях. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 11 д назад

Месяц назад я отказался от 8165 долларов за RTX 6000 PRO

Пользователь Reddit сообщил, что шесть месяцев назад отказался от предложения в размере 8165 долларов за видеокарту RTX 6000 PRO. Тот же поставщик сейчас предлагает ту же видеокарту по цене 11575 долларов, что заставляет пользователя отразить на своём решении с точки зрения перспективы.

media r/LocalLLaMA · 11 д назад

ГЛОМ 5.2: отчет о скорости локальной инференции

Пользователи, отчитывающие скорости локальной инференции GLM 5.2 с использованием llama.cpp на 6x RTX 3090 с 128 ГБ DDR5 и i7-13700K, достигают скорости 7,8 токенов в секунду при размере контекста 90K с использованием квантования Q8_0. Обработка промпта происходит со скоростью примерно 40 токенов в секунду.

media r/LocalLLaMA · 11 д назад

Бесплатная серия из 15 частей о внутренних аспектах LLM, основанных на Gemma 4 12B

Я написал бесплатную серию из 15 частей, в которой подробно описывается внутренняя структура LLM, используя Gemma 4 12B в качестве основного примера. Каждая часть охватывает технические аспекты от токенизации до предоставления сервиса, с реальными математическими вычислениями, формами тензоров и ограничениями аппаратного обеспечения. Серия включает в себя дополнительный разбор vLLM и полностью доступна без платных стен или требований на электронную почту.

media r/LocalLLaMA · 11 д назад

Расширение Qwen Code Companion теперь открыто для использования

Расширение Qwen Code Companion для VSCode теперь доступно в магазине и открыто для использования по адресу https://github.com/QwenLM/qwen-code. Пользователи отмечают, что оно работает хорошо с моделями, размещёнными в LM Studio, и превосходит другие локальные инструменты для LLM, такие как continue, kilo, cline и roo, при минимальной настройке.

media r/LocalLLaMA · 11 д назад

Gemma 4 26b a4b выделяется при ответах на языковые и научные запросы

Пользователь утверждает, что Gemma 4 26b a4b является лучшей моделью, которую он пробовал для изучения языка и научных запросов, превосходя Qwen 3.5/3.6 в этих областях. В посте отмечается разрыв в доступных малых моделях MOE в диапазоне от 20b до 30b, что указывает на необходимость расширения вариантов за пределами задач кодирования и агентских действий.

media r/LocalLLaMA · 11 д назад

Сложности с завершением токен-планов Xiaomi Mimo-v2.5-pro до истечения срока

Пользователь имеет 24B токен-кредитов из конкурса токен-плана Xiaomi, стоимостью $50, но полученных бесплатно. Он сообщает о высоком потреблении токенов при использовании, ограниченной поддержке инструментов и теперь обеспокоен тем, что кредиты будут потеряны из-за истечения срока в четыре дня. Модель похвалена за 90% ставку кэша и 99% снижение цены при кэшировании, пользователь отмечает, что она хорошо справляется с задачами по программированию и планированию.

github llama.cpp · 11 д назад

Исправление случайных сбоев в test-args-parser на Windows

Патч устраняет случайные сбои в тесте test-args-parser на Windows, изменяя перекрытие argv так, чтобы применяться только при совпадении argc, предотвращая перезапись программных аргументов. Это устраняет сбой быстрого отказа в рабочем процессе OpenVINO на Windows, при этом сохраняя обработку UTF-8 для реальных исполняемых файлов.

media r/LocalLLaMA · 11 д назад

Доска, где каждый квадрат — агент

Проект под названием Jaz представляет доску, где каждый квадрат функционирует как независимый агент, отвечающий за поддержание собственного состояния. Система является открытой и доступна на GitHub, с живой демонстрацией по адресу jaz.chat, требующей агента для программирования, такого как Claude Code или Codex.

media r/LocalLLaMA · 11 д назад

Глубокая нейронная сеть превращает изображения в игровые сессии локально

Локально работающая глубокая нейронная сеть может превращать любое изображение в игровую сессию, используя небольшую модель, похожую на трансформер, обученную с нуля. Модель, работающая на RTX 5090, генерирует игровые последовательности автокоррекционно с реальным вводом клавиатуры, хотя в настоящее время она страдает от плохой динамики и проблем с контекстом.