Все статьи
media r/LocalLLaMA · 5 ч назад

Step-3.7-Flash (198B-A11B vision MoE) на 4×3090 — полностью резидентный IQ3_XXS превосходит переполняющий IQ4 в 2.4 раза, а MTP speculative decode молча ломает работу с изображениями

Пользователь демонстрирует запуск модели Step-3.7-Flash от StepFun на 198B параметров на потребительской конфигурации из 4×RTX 3090, выявляя критические компромиссы производительности между уровнями квантования и многозадачным предсказанием (MTP) с возможностями работы с изображениями.

media r/LocalLLaMA · 5 ч назад

Что потребуется для создания собственной LLM от /r/localllama?

Пользователь Reddit выражает обеспокоенность по поводу возможной потери доступа к открытым весам на оборудовании с памятью 96–128 ГБ и задаётся вопросом, реализуема ли крупная языковая модель, разрабатываемая сообществом.

media r/LocalLLaMA · 5 ч назад

Qwen3.6 27B локально против Opus 4.8: движок вокселей на чистом C без фреймворков

Эксперимент по сравнению поставил Claude Code на базе Opus 4.8 против локально запущенной модели Qwen3.6 27B для создания движка воксельного мира на чистом C без внешних фреймворков или библиотек.

media r/LocalLLaMA · 5 ч назад

Пользователи ставят под сомнение существование рейтингов закрытых и открытых LLM и ценность моделей на 70B–350B параметров

Пользователь Reddit спрашивает, существует ли надежный рейтинг, который сравнивает закрытые модели с открытыми весами в одном ряду. Он отмечает, что большинство доступных бенчмарков кажутся фрагментированными и не учитывают практические различия между запуском моделей локально и использованием API-сервисов.

media r/LocalLLaMA · 6 ч назад

Вопрос сообщества о применении квантования Q1/Q2 для больших языковых моделей

Пользователь Reddit спрашивает сообщество об их опыте использования уровней квантования Q1 или Q2 для больших языковых моделей с количеством параметров от 100 до 250 миллиардов. В посте перечислены конкретные модели этого размера, такие как DeepSeek-V4-Flash и Qwen3-235B-A22B, и проводится их сравнение с более маленькими моделями, где низкое квантование обычно не рекомендуется.

github llama.cpp · 6 ч назад

Выпуск llama.cpp b9830 добавляет флаг --offline и исправляет ошибку памяти

Выпуск llama.cpp b9830 вводит возможность использования флага --offline с командой llama download, позволяя скриптам проверять закэшированные модели без доступа к сети. Это обновление также устраняет скрытую уязвимость use-after-free в колбэке on_done URL-задачи, где first_path был неверно захвачен по ссылке.

media Hugging Face Forums · 6 ч назад

Пользователь запрашивает восстановление аккаунта zhoucantd

Пользователь на форумах Hugging Face спрашивает, возможно ли восстановить его аккаунт, конкретно указывая имя пользователя "zhoucantd". В посте упоминается поток обсуждения с участием двух человек по этому запросу.

media Hugging Face Forums · 6 ч назад

UCTF: Универсальный сжатый формат обучения для многоязычного ИИ

Новая концепция под названием UCTF (Universal Compressed Training Format) предлагает слой-посредник для устранения семантической избыточности при обучении многоязычных LLM путем сжатия разнообразных языков в унифицированный, независимый от языка формат токенов.

media Hugging Face Forums · 6 ч назад

Создание виджета чата для сайта на Gradio. Часть IV

Пользователь сообщает, что его ранее работавший виджет AI-чатбота на сайте перестал функционировать из-за ошибки политики CORS после недавнего обновления Gradio. Ошибка указывает на то, что заголовок 'Access-Control-Allow-Credentials' в ответе пуст, что конфликтует с режимом учётных данных запроса клиента.

media Hugging Face Forums · 6 ч назад

Язык как носитель интеллекта: за пределами предсказания токенов

В этой статье утверждается, что большие языковые модели (LLM) получают свой кажущийся интеллект из глубоких геометрических связей и скрытых состояний, присущих самому языку, а не из независимых механических вычислений или простого предсказания токенов.

media r/LocalLLaMA · 7 ч назад

DuckDuckGo блокирует с помощью CAPTCHA. Позвольте мне попробовать другие подходы:

Пользователь на сабреддите LocalLLaMA сообщает, что его локальная LLM на основе llama.cpp начала сталкиваться с блоками CAPTCHA от DuckDuckGo этим утром. В статье спрашивается, испытывают ли другие пользователи подобные проблемы с антибот-мерами DuckDuckGo.

media r/LocalLLaMA · 7 ч назад

Что компании на самом деле используют для самостоятельного размещения ИИ прямо сейчас и почему?

Пользователь Reddit запрашивает реальные данные о корпоративных развертываниях самостоятельного размещения искусственного интеллекта, проводя различие между фактическим производственным использованием и любительскими тестами.

media r/LocalLLaMA · 7 ч назад

Пост на Reddit освещает биометрические требования для предварительного просмотра GPT 5.6 Sol

Пользователь Reddit опубликовал изображение, показывающее интерфейс приложения, требующий сканирование лица, проверку отпечатков пальцев и верификацию паспорта для участия в предварительном просмотре GPT 5.6 Sol. В посте эти строгие шаги проверки личности характеризуются как необычные или «дикие» для доступа к превью модели.

media r/LocalLLaMA · 8 ч назад

Минималистичный CPU-only движок вывода для Qwen 3, написанный с нуля на чистом C

Разработчик выпустил реализацию на чистом C для движка вывода, специально предназначенного для моделей Qwen 3 размером 4B и менее. Проект доступен на GitHub в качестве учебного ресурса, который ставит во главу угла читаемость кода и образовательную ценность, а не сырую производительность.

media r/LocalLLaMA · 8 ч назад

Whisperian: лучшее приложение для Android с локальными моделями ASR

Whisperian — это приложение для Android, позволяющее пользователям использовать вход с микрофона с локальными моделями автоматического распознавания речи (ASR). Приложение доступно для загрузки в Google Play Store.

github llama.cpp · 10 ч назад

Выпуск llama.cpp b9829: сокращение логов и мультиплатформенные бинарники

Проект llama.cpp выпустил версию b9829, которая включает сокращение вывода логов в сервере, общих компонентах и модулях спекулятивного декодирования. Это обновление также стандартизирует соглашения об именах, заменяя CMN_ на COM_.

media r/LocalLLaMA · 10 ч назад

Реверс-инжиниринг DeepSeek Chat для совместимого с OpenAI API

Разработчик создал локальный прокси, который через реверс-инжиниринг бесплатного веб-чата DeepSeek для потребителей открывает конечную точку API, совместимую с OpenAI, по адресу localhost:8000/v1. Этот инструмент позволяет существующим клиентам, совместимым с OpenAI, таким как Open WebUI и различные SDK, взаимодействовать с моделями V4 и R1 от DeepSeek без изменений в коде или использования ключей API.