Все статьи
media r/LocalLLaMA · 4 ч назад

Qwen3.6 27B локально против Opus 4.8: движок вокселей на чистом C без фреймворков

Эксперимент по сравнению поставил Claude Code на базе Opus 4.8 против локально запущенной модели Qwen3.6 27B для создания движка воксельного мира на чистом C без внешних фреймворков или библиотек.

media r/LocalLLaMA · 4 ч назад

Пользователи ставят под сомнение существование рейтингов закрытых и открытых LLM и ценность моделей на 70B–350B параметров

Пользователь Reddit спрашивает, существует ли надежный рейтинг, который сравнивает закрытые модели с открытыми весами в одном ряду. Он отмечает, что большинство доступных бенчмарков кажутся фрагментированными и не учитывают практические различия между запуском моделей локально и использованием API-сервисов.

media r/LocalLLaMA · 5 ч назад

Вопрос сообщества о применении квантования Q1/Q2 для больших языковых моделей

Пользователь Reddit спрашивает сообщество об их опыте использования уровней квантования Q1 или Q2 для больших языковых моделей с количеством параметров от 100 до 250 миллиардов. В посте перечислены конкретные модели этого размера, такие как DeepSeek-V4-Flash и Qwen3-235B-A22B, и проводится их сравнение с более маленькими моделями, где низкое квантование обычно не рекомендуется.

github llama.cpp · 5 ч назад

Выпуск llama.cpp b9830 добавляет флаг --offline и исправляет ошибку памяти

Выпуск llama.cpp b9830 вводит возможность использования флага --offline с командой llama download, позволяя скриптам проверять закэшированные модели без доступа к сети. Это обновление также устраняет скрытую уязвимость use-after-free в колбэке on_done URL-задачи, где first_path был неверно захвачен по ссылке.

media Hugging Face Forums · 5 ч назад

Пользователь запрашивает восстановление аккаунта zhoucantd

Пользователь на форумах Hugging Face спрашивает, возможно ли восстановить его аккаунт, конкретно указывая имя пользователя "zhoucantd". В посте упоминается поток обсуждения с участием двух человек по этому запросу.

media Hugging Face Forums · 5 ч назад

UCTF: Универсальный сжатый формат обучения для многоязычного ИИ

Новая концепция под названием UCTF (Universal Compressed Training Format) предлагает слой-посредник для устранения семантической избыточности при обучении многоязычных LLM путем сжатия разнообразных языков в унифицированный, независимый от языка формат токенов.

media Hugging Face Forums · 5 ч назад

Создание виджета чата для сайта на Gradio. Часть IV

Пользователь сообщает, что его ранее работавший виджет AI-чатбота на сайте перестал функционировать из-за ошибки политики CORS после недавнего обновления Gradio. Ошибка указывает на то, что заголовок 'Access-Control-Allow-Credentials' в ответе пуст, что конфликтует с режимом учётных данных запроса клиента.

media Hugging Face Forums · 5 ч назад

Язык как носитель интеллекта: за пределами предсказания токенов

В этой статье утверждается, что большие языковые модели (LLM) получают свой кажущийся интеллект из глубоких геометрических связей и скрытых состояний, присущих самому языку, а не из независимых механических вычислений или простого предсказания токенов.

media r/LocalLLaMA · 6 ч назад

DuckDuckGo блокирует с помощью CAPTCHA. Позвольте мне попробовать другие подходы:

Пользователь на сабреддите LocalLLaMA сообщает, что его локальная LLM на основе llama.cpp начала сталкиваться с блоками CAPTCHA от DuckDuckGo этим утром. В статье спрашивается, испытывают ли другие пользователи подобные проблемы с антибот-мерами DuckDuckGo.

media r/LocalLLaMA · 6 ч назад

Что компании на самом деле используют для самостоятельного размещения ИИ прямо сейчас и почему?

Пользователь Reddit запрашивает реальные данные о корпоративных развертываниях самостоятельного размещения искусственного интеллекта, проводя различие между фактическим производственным использованием и любительскими тестами.

media r/LocalLLaMA · 6 ч назад

Пост на Reddit освещает биометрические требования для предварительного просмотра GPT 5.6 Sol

Пользователь Reddit опубликовал изображение, показывающее интерфейс приложения, требующий сканирование лица, проверку отпечатков пальцев и верификацию паспорта для участия в предварительном просмотре GPT 5.6 Sol. В посте эти строгие шаги проверки личности характеризуются как необычные или «дикие» для доступа к превью модели.

media r/LocalLLaMA · 6 ч назад

Минималистичный CPU-only движок вывода для Qwen 3, написанный с нуля на чистом C

Разработчик выпустил реализацию на чистом C для движка вывода, специально предназначенного для моделей Qwen 3 размером 4B и менее. Проект доступен на GitHub в качестве учебного ресурса, который ставит во главу угла читаемость кода и образовательную ценность, а не сырую производительность.

media r/LocalLLaMA · 7 ч назад

Whisperian: лучшее приложение для Android с локальными моделями ASR

Whisperian — это приложение для Android, позволяющее пользователям использовать вход с микрофона с локальными моделями автоматического распознавания речи (ASR). Приложение доступно для загрузки в Google Play Store.

github llama.cpp · 9 ч назад

Выпуск llama.cpp b9829: сокращение логов и мультиплатформенные бинарники

Проект llama.cpp выпустил версию b9829, которая включает сокращение вывода логов в сервере, общих компонентах и модулях спекулятивного декодирования. Это обновление также стандартизирует соглашения об именах, заменяя CMN_ на COM_.

media r/LocalLLaMA · 9 ч назад

Реверс-инжиниринг DeepSeek Chat для совместимого с OpenAI API

Разработчик создал локальный прокси, который через реверс-инжиниринг бесплатного веб-чата DeepSeek для потребителей открывает конечную точку API, совместимую с OpenAI, по адресу localhost:8000/v1. Этот инструмент позволяет существующим клиентам, совместимым с OpenAI, таким как Open WebUI и различные SDK, взаимодействовать с моделями V4 и R1 от DeepSeek без изменений в коде или использования ключей API.

media r/LocalLLaMA · 9 ч назад

Qwen3-VL-2B отлично справляется с извлечением JSON на маломощном оборудовании

Пользователь сообщает, что Qwen3-VL-2B — единственная жизнеспособная модель для визуального и языкового анализа, способная надёжно извлекать данные из изображений в формат JSON на устройствах с низкой спецификацией, таких как ноутбуки Intel i3 с 8 ГБ ОЗУ. Автор отмечает, что, несмотря на её производительность, модель отсутствует в основных бенчмарках, таких как Artificial Analysis и Open LLM Leaderboard.

media r/LocalLLaMA · 11 ч назад

Clark Labs выпустила модель генерации изображений по тексту Sana 1.6B с тернарным квантованием

Clark Labs выпустила сжатую версию трансформатора для генерации изображений по тексту Sana 1.6B, квантованного до тернарных весов примерно по 1,85 бита на вес. Это сжатие приводит к тому, что модель в 8,6 раза меньше стандартной версии FP16, сохраняя качество, близкое к FP16.