Все статьи — korshunov.ai

Все статьи Страница 1 / 108

Step-3.7-Flash (198B-A11B vision MoE) на 4×3090 — полностью резидентный IQ3_XXS превосходит переполняющий IQ4 в 2.4 раза, а MTP speculative decode молча ломает работу с изображениями

Пользователь демонстрирует запуск модели Step-3.7-Flash от StepFun на 198B параметров на потребительской конфигурации из 4×RTX 3090, выявляя критические компромиссы производительности между уровнями квантования и многозадачным предсказанием (MTP) с возможностями работы с изображениями.

media r/LocalLLaMA · 5 ч назад

Что потребуется для создания собственной LLM от /r/localllama?

Пользователь Reddit выражает обеспокоенность по поводу возможной потери доступа к открытым весам на оборудовании с памятью 96–128 ГБ и задаётся вопросом, реализуема ли крупная языковая модель, разрабатываемая сообществом.

media r/LocalLLaMA · 5 ч назад

Продать DDR5 в обмен на VRAM?

Пользователь Reddit спрашивает, стоит ли ему продать половину своей оперативной памяти DDR5 6400 ECC объемом 768 ГБ, чтобы приобрести видеокарты RTX 6000 Pro, ссылаясь на текущие цены на RAM.

media r/LocalLLaMA · 5 ч назад

Ищу советы по корпусам для рабочей станции с двумя RTX 3090 для LLM

Пользователь собирает локальную рабочую станцию для LLM на материнской плате ASUS Crosshair VIII Hero и двух видеокартах RTX 3090 с ограничением мощности, ищет рекомендации по совместимым корпусам.

media r/LocalLLaMA · 5 ч назад

Qwen3.6 27B локально против Opus 4.8: движок вокселей на чистом C без фреймворков

Эксперимент по сравнению поставил Claude Code на базе Opus 4.8 против локально запущенной модели Qwen3.6 27B для создания движка воксельного мира на чистом C без внешних фреймворков или библиотек.

media r/LocalLLaMA · 5 ч назад

Пользователи ставят под сомнение существование рейтингов закрытых и открытых LLM и ценность моделей на 70B–350B параметров

Пользователь Reddit спрашивает, существует ли надежный рейтинг, который сравнивает закрытые модели с открытыми весами в одном ряду. Он отмечает, что большинство доступных бенчмарков кажутся фрагментированными и не учитывают практические различия между запуском моделей локально и использованием API-сервисов.

media r/LocalLLaMA · 6 ч назад

Вопрос сообщества о применении квантования Q1/Q2 для больших языковых моделей

Пользователь Reddit спрашивает сообщество об их опыте использования уровней квантования Q1 или Q2 для больших языковых моделей с количеством параметров от 100 до 250 миллиардов. В посте перечислены конкретные модели этого размера, такие как DeepSeek-V4-Flash и Qwen3-235B-A22B, и проводится их сравнение с более маленькими моделями, где низкое квантование обычно не рекомендуется.

github llama.cpp · 6 ч назад

Выпуск llama.cpp b9830 добавляет флаг --offline и исправляет ошибку памяти

Выпуск llama.cpp b9830 вводит возможность использования флага --offline с командой llama download, позволяя скриптам проверять закэшированные модели без доступа к сети. Это обновление также устраняет скрытую уязвимость use-after-free в колбэке on_done URL-задачи, где first_path был неверно захвачен по ссылке.

media Hugging Face Forums · 6 ч назад

Пользователь запрашивает восстановление аккаунта zhoucantd

Пользователь на форумах Hugging Face спрашивает, возможно ли восстановить его аккаунт, конкретно указывая имя пользователя "zhoucantd". В посте упоминается поток обсуждения с участием двух человек по этому запросу.

media Hugging Face Forums · 6 ч назад

UCTF: Универсальный сжатый формат обучения для многоязычного ИИ

Новая концепция под названием UCTF (Universal Compressed Training Format) предлагает слой-посредник для устранения семантической избыточности при обучении многоязычных LLM путем сжатия разнообразных языков в унифицированный, независимый от языка формат токенов.

media Hugging Face Forums · 6 ч назад

Создание виджета чата для сайта на Gradio. Часть IV

Пользователь сообщает, что его ранее работавший виджет AI-чатбота на сайте перестал функционировать из-за ошибки политики CORS после недавнего обновления Gradio. Ошибка указывает на то, что заголовок 'Access-Control-Allow-Credentials' в ответе пуст, что конфликтует с режимом учётных данных запроса клиента.

media Hugging Face Forums · 6 ч назад

Язык как носитель интеллекта: за пределами предсказания токенов

В этой статье утверждается, что большие языковые модели (LLM) получают свой кажущийся интеллект из глубоких геометрических связей и скрытых состояний, присущих самому языку, а не из независимых механических вычислений или простого предсказания токенов.

media r/LocalLLaMA · 7 ч назад

DuckDuckGo блокирует с помощью CAPTCHA. Позвольте мне попробовать другие подходы:

Пользователь на сабреддите LocalLLaMA сообщает, что его локальная LLM на основе llama.cpp начала сталкиваться с блоками CAPTCHA от DuckDuckGo этим утром. В статье спрашивается, испытывают ли другие пользователи подобные проблемы с антибот-мерами DuckDuckGo.

media r/LocalLLaMA · 7 ч назад

Что компании на самом деле используют для самостоятельного размещения ИИ прямо сейчас и почему?

Пользователь Reddit запрашивает реальные данные о корпоративных развертываниях самостоятельного размещения искусственного интеллекта, проводя различие между фактическим производственным использованием и любительскими тестами.

media r/LocalLLaMA · 7 ч назад

Пост на Reddit освещает биометрические требования для предварительного просмотра GPT 5.6 Sol

Пользователь Reddit опубликовал изображение, показывающее интерфейс приложения, требующий сканирование лица, проверку отпечатков пальцев и верификацию паспорта для участия в предварительном просмотре GPT 5.6 Sol. В посте эти строгие шаги проверки личности характеризуются как необычные или «дикие» для доступа к превью модели.

media r/LocalLLaMA · 8 ч назад

Минималистичный CPU-only движок вывода для Qwen 3, написанный с нуля на чистом C

Разработчик выпустил реализацию на чистом C для движка вывода, специально предназначенного для моделей Qwen 3 размером 4B и менее. Проект доступен на GitHub в качестве учебного ресурса, который ставит во главу угла читаемость кода и образовательную ценность, а не сырую производительность.

media r/LocalLLaMA · 8 ч назад

Скорее всего, нам это скоро понадобится.

Этот пост на Reddit делится мемом с цитатами Владика и Шоу из 𝕏 о будущих потребностях в этой области.

media r/LocalLLaMA · 8 ч назад

Whisperian: лучшее приложение для Android с локальными моделями ASR

Whisperian — это приложение для Android, позволяющее пользователям использовать вход с микрофона с локальными моделями автоматического распознавания речи (ASR). Приложение доступно для загрузки в Google Play Store.

github llama.cpp · 10 ч назад

Выпуск llama.cpp b9829: сокращение логов и мультиплатформенные бинарники

Проект llama.cpp выпустил версию b9829, которая включает сокращение вывода логов в сервере, общих компонентах и модулях спекулятивного декодирования. Это обновление также стандартизирует соглашения об именах, заменяя CMN_ на COM_.

media r/LocalLLaMA · 10 ч назад

Реверс-инжиниринг DeepSeek Chat для совместимого с OpenAI API

Разработчик создал локальный прокси, который через реверс-инжиниринг бесплатного веб-чата DeepSeek для потребителей открывает конечную точку API, совместимую с OpenAI, по адресу localhost:8000/v1. Этот инструмент позволяет существующим клиентам, совместимым с OpenAI, таким как Open WebUI и различные SDK, взаимодействовать с моделями V4 и R1 от DeepSeek без изменений в коде или использования ключей API.