Все статьи — korshunov.ai

Все статьи Страница 1 / 131

Что делают люди с локальными моделями и какие инструменты они используют?

Пользователь спрашивает о практическом применении локальных моделей и о том, какие инструменты эффективны для задач, таких как программирование, особенно в качестве альтернативы веб-интерфейсам, таким как Claude.ai. Они упоминают попытку использования OpenWebUI, но отмечают, что он недостаточно мощен без значительной настройки.

media r/LocalLLaMA · 12 д назад

Что происходит, когда подписки на LLM перестают поддерживаться?

Поставщики LLM в настоящее время поддерживали дорогостоящее использование API для создания экосистем, планируя повысить цены позже. По мере того, как поддержка уменьшается, пользователи могут столкнуться с резким ростом цен — например, до 2000 долларов в месяц — что сделает доступ к сервису дорогостоящим и угрожает широкому внедрению, особенно для лиц, которые зависят от недорогого оборудования для запуска моделей.

media r/LocalLLaMA · 12 д назад

Кто-нибудь запускает MiniMax M3 с pipenetwork Mixed 3_6 Quant?

Пользователь спрашивает, кто-нибудь запускает MiniMax M3 с использованием pipenetwork и 3_6 квантования на системе с только 256 ГБ единых оперативных памяти.

media r/LocalLLaMA · 12 д назад

Введение в Noema Atlas: распределение моделей на основе пир-топ-пир

Noema Atlas — это бесплатная, открытая система пир-топ-пир, которая обеспечивает децентрализованное распространение локальных моделей больших языковых моделей с использованием Iroh и хеширования BLAKE3. Она позволяет пользователям делиться и получать модели напрямую с узлов по всему миру, с Hugging Face и зеркал как резервные варианты, и поддерживает восстановление моделей, удалённых с Hugging Face, через приватное распространение.

github llama.cpp · 12 д назад

llama.cpp Release b9742: Обновлено с использованием заполненного шага для весов SSM-conv

Версия llama.cpp b9742 вводит заполненный шаг для весов SSM-conv, что повышает эффективность операций в нейронных сетях. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 12 д назад

llama.cpp Release b9743 Adds New Binaries and GPU Support

llama.cpp version b9743 introduces new binaries for macOS, Linux, Android, Windows, and openEuler across multiple architectures. The release includes support for Vulkan, CUDA 12.4 and 13.3, OpenVINO, SYCL, and ROCm, with updated UI and improved parser spacing rules via JSON schema to grammar alignment.

lab Claude Code Releases · 12 д назад

Обновлено подсказка о простоях потока в v2.1.185

Теперь подсказка о простоях потока отображает "Ожидание ответа от API · повтор попытки через …" и активируется спустя 20 секунд без ответа, заменяя предыдущее сообщение и задержку.

media r/LocalLLaMA · 12 д назад

Месяц назад я отказался от 8165 долларов за RTX 6000 PRO

Пользователь Reddit сообщил, что шесть месяцев назад отказался от предложения в размере 8165 долларов за видеокарту RTX 6000 PRO. Тот же поставщик сейчас предлагает ту же видеокарту по цене 11575 долларов, что заставляет пользователя отразить на своём решении с точки зрения перспективы.

media r/LocalLLaMA · 12 д назад

ГЛОМ 5.2: отчет о скорости локальной инференции

Пользователи, отчитывающие скорости локальной инференции GLM 5.2 с использованием llama.cpp на 6x RTX 3090 с 128 ГБ DDR5 и i7-13700K, достигают скорости 7,8 токенов в секунду при размере контекста 90K с использованием квантования Q8_0. Обработка промпта происходит со скоростью примерно 40 токенов в секунду.

github llama.cpp · 12 д назад

llama.cpp Release b9741 Adds New Binaries and Support

llama.cpp version b9741 вводит новые бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе предусмотрена поддержка Vulkan, CUDA 12.4 и 13.3, OpenVINO, SYCL и ROCm, а также обновленные версии для iOS и Ubuntu.

media r/LocalLLaMA · 12 д назад

Бесплатная серия из 15 частей о внутренних аспектах LLM, основанных на Gemma 4 12B

Я написал бесплатную серию из 15 частей, в которой подробно описывается внутренняя структура LLM, используя Gemma 4 12B в качестве основного примера. Каждая часть охватывает технические аспекты от токенизации до предоставления сервиса, с реальными математическими вычислениями, формами тензоров и ограничениями аппаратного обеспечения. Серия включает в себя дополнительный разбор vLLM и полностью доступна без платных стен или требований на электронную почту.

media r/LocalLLaMA · 12 д назад

Расширение Qwen Code Companion теперь открыто для использования

Расширение Qwen Code Companion для VSCode теперь доступно в магазине и открыто для использования по адресу https://github.com/QwenLM/qwen-code. Пользователи отмечают, что оно работает хорошо с моделями, размещёнными в LM Studio, и превосходит другие локальные инструменты для LLM, такие как continue, kilo, cline и roo, при минимальной настройке.

media r/LocalLLaMA · 12 д назад

Gemma 4 26b a4b выделяется при ответах на языковые и научные запросы

Пользователь утверждает, что Gemma 4 26b a4b является лучшей моделью, которую он пробовал для изучения языка и научных запросов, превосходя Qwen 3.5/3.6 в этих областях. В посте отмечается разрыв в доступных малых моделях MOE в диапазоне от 20b до 30b, что указывает на необходимость расширения вариантов за пределами задач кодирования и агентских действий.

media r/LocalLLaMA · 12 д назад

Сложности с завершением токен-планов Xiaomi Mimo-v2.5-pro до истечения срока

Пользователь имеет 24B токен-кредитов из конкурса токен-плана Xiaomi, стоимостью $50, но полученных бесплатно. Он сообщает о высоком потреблении токенов при использовании, ограниченной поддержке инструментов и теперь обеспокоен тем, что кредиты будут потеряны из-за истечения срока в четыре дня. Модель похвалена за 90% ставку кэша и 99% снижение цены при кэшировании, пользователь отмечает, что она хорошо справляется с задачами по программированию и планированию.

github llama.cpp · 12 д назад

Исправление случайных сбоев в test-args-parser на Windows

Патч устраняет случайные сбои в тесте test-args-parser на Windows, изменяя перекрытие argv так, чтобы применяться только при совпадении argc, предотвращая перезапись программных аргументов. Это устраняет сбой быстрого отказа в рабочем процессе OpenVINO на Windows, при этом сохраняя обработку UTF-8 для реальных исполняемых файлов.

media r/LocalLLaMA · 12 д назад

Доска, где каждый квадрат — агент

Проект под названием Jaz представляет доску, где каждый квадрат функционирует как независимый агент, отвечающий за поддержание собственного состояния. Система является открытой и доступна на GitHub, с живой демонстрацией по адресу jaz.chat, требующей агента для программирования, такого как Claude Code или Codex.

media r/LocalLLaMA · 12 д назад

Глубокая нейронная сеть превращает изображения в игровые сессии локально

Локально работающая глубокая нейронная сеть может превращать любое изображение в игровую сессию, используя небольшую модель, похожую на трансформер, обученную с нуля. Модель, работающая на RTX 5090, генерирует игровые последовательности автокоррекционно с реальным вводом клавиатуры, хотя в настоящее время она страдает от плохой динамики и проблем с контекстом.

media r/LocalLLaMA · 12 д назад

Решение о покупке R9700 в условиях роста цен на видеокарты

Пользователь выражает разочарование по поводу цен Nvidia, купив двух видеокарт R9700, несмотря на текущие цены на RTX 5090 в размере 7000 долларов и на RTX 6000 Pro в размере 13500 долларов. Он спрашивает, не было ли ошибкой покупка R9700 в свете значительного роста цен на более новые видеокарты Nvidia.

media r/LocalLLaMA · 12 д назад

Советы? 2x 3090

Пользователь просит совета по использованию двух видеокарт NVIDIA RTX 3090. В посте присутствует изображение и ссылки на оригинальное сообщение в Reddit и комментарии.

media r/LocalLLaMA · 12 д назад

Теперь вы можете конвертировать квантованные модели EXL3 на Mac с процессором Apple Silicon

Пользователи теперь могут конвертировать и запускать квантованные модели EXL3 на Mac с процессором Apple Silicon и объёмом памяти 64 ГБ и более. Проверки показывают, что модели, такие как MiniCPM5 и Qwen3.6-27B, достигают производительности, сравнимой с или немного ниже производительности при конвертации на картах RTX, при этом EXL3 обеспечивает более высокое качество квантования по сравнению с MLX.