Все статьи — korshunov.ai

Все статьи Страница 1 / 108

Вопрос сообщества о применении квантования Q1/Q2 для больших языковых моделей

Пользователь Reddit спрашивает сообщество об их опыте использования уровней квантования Q1 или Q2 для больших языковых моделей с количеством параметров от 100 до 250 миллиардов. В посте перечислены конкретные модели этого размера, такие как DeepSeek-V4-Flash и Qwen3-235B-A22B, и проводится их сравнение с более маленькими моделями, где низкое квантование обычно не рекомендуется.

github llama.cpp · 5 ч назад

Выпуск llama.cpp b9830 добавляет флаг --offline и исправляет ошибку памяти

Выпуск llama.cpp b9830 вводит возможность использования флага --offline с командой llama download, позволяя скриптам проверять закэшированные модели без доступа к сети. Это обновление также устраняет скрытую уязвимость use-after-free в колбэке on_done URL-задачи, где first_path был неверно захвачен по ссылке.

media Hugging Face Forums · 6 ч назад

Пользователь запрашивает восстановление аккаунта zhoucantd

Пользователь на форумах Hugging Face спрашивает, возможно ли восстановить его аккаунт, конкретно указывая имя пользователя "zhoucantd". В посте упоминается поток обсуждения с участием двух человек по этому запросу.

media Hugging Face Forums · 6 ч назад

UCTF: Универсальный сжатый формат обучения для многоязычного ИИ

Новая концепция под названием UCTF (Universal Compressed Training Format) предлагает слой-посредник для устранения семантической избыточности при обучении многоязычных LLM путем сжатия разнообразных языков в унифицированный, независимый от языка формат токенов.

media Hugging Face Forums · 6 ч назад

Создание виджета чата для сайта на Gradio. Часть IV

Пользователь сообщает, что его ранее работавший виджет AI-чатбота на сайте перестал функционировать из-за ошибки политики CORS после недавнего обновления Gradio. Ошибка указывает на то, что заголовок 'Access-Control-Allow-Credentials' в ответе пуст, что конфликтует с режимом учётных данных запроса клиента.

media Hugging Face Forums · 6 ч назад

Язык как носитель интеллекта: за пределами предсказания токенов

В этой статье утверждается, что большие языковые модели (LLM) получают свой кажущийся интеллект из глубоких геометрических связей и скрытых состояний, присущих самому языку, а не из независимых механических вычислений или простого предсказания токенов.

media r/LocalLLaMA · 6 ч назад

DuckDuckGo блокирует с помощью CAPTCHA. Позвольте мне попробовать другие подходы:

Пользователь на сабреддите LocalLLaMA сообщает, что его локальная LLM на основе llama.cpp начала сталкиваться с блоками CAPTCHA от DuckDuckGo этим утром. В статье спрашивается, испытывают ли другие пользователи подобные проблемы с антибот-мерами DuckDuckGo.

media r/LocalLLaMA · 6 ч назад

Что компании на самом деле используют для самостоятельного размещения ИИ прямо сейчас и почему?

Пользователь Reddit запрашивает реальные данные о корпоративных развертываниях самостоятельного размещения искусственного интеллекта, проводя различие между фактическим производственным использованием и любительскими тестами.

media r/LocalLLaMA · 6 ч назад

Пост на Reddit освещает биометрические требования для предварительного просмотра GPT 5.6 Sol

Пользователь Reddit опубликовал изображение, показывающее интерфейс приложения, требующий сканирование лица, проверку отпечатков пальцев и верификацию паспорта для участия в предварительном просмотре GPT 5.6 Sol. В посте эти строгие шаги проверки личности характеризуются как необычные или «дикие» для доступа к превью модели.

media r/LocalLLaMA · 7 ч назад

Минималистичный CPU-only движок вывода для Qwen 3, написанный с нуля на чистом C

Разработчик выпустил реализацию на чистом C для движка вывода, специально предназначенного для моделей Qwen 3 размером 4B и менее. Проект доступен на GitHub в качестве учебного ресурса, который ставит во главу угла читаемость кода и образовательную ценность, а не сырую производительность.

media r/LocalLLaMA · 7 ч назад

Скорее всего, нам это скоро понадобится.

Этот пост на Reddit делится мемом с цитатами Владика и Шоу из 𝕏 о будущих потребностях в этой области.

media r/LocalLLaMA · 7 ч назад

Whisperian: лучшее приложение для Android с локальными моделями ASR

Whisperian — это приложение для Android, позволяющее пользователям использовать вход с микрофона с локальными моделями автоматического распознавания речи (ASR). Приложение доступно для загрузки в Google Play Store.

github llama.cpp · 9 ч назад

Выпуск llama.cpp b9829: сокращение логов и мультиплатформенные бинарники

Проект llama.cpp выпустил версию b9829, которая включает сокращение вывода логов в сервере, общих компонентах и модулях спекулятивного декодирования. Это обновление также стандартизирует соглашения об именах, заменяя CMN_ на COM_.

media r/LocalLLaMA · 9 ч назад

Реверс-инжиниринг DeepSeek Chat для совместимого с OpenAI API

Разработчик создал локальный прокси, который через реверс-инжиниринг бесплатного веб-чата DeepSeek для потребителей открывает конечную точку API, совместимую с OpenAI, по адресу localhost:8000/v1. Этот инструмент позволяет существующим клиентам, совместимым с OpenAI, таким как Open WebUI и различные SDK, взаимодействовать с моделями V4 и R1 от DeepSeek без изменений в коде или использования ключей API.

media r/LocalLLaMA · 10 ч назад

Qwen3-VL-2B отлично справляется с извлечением JSON на маломощном оборудовании

Пользователь сообщает, что Qwen3-VL-2B — единственная жизнеспособная модель для визуального и языкового анализа, способная надёжно извлекать данные из изображений в формат JSON на устройствах с низкой спецификацией, таких как ноутбуки Intel i3 с 8 ГБ ОЗУ. Автор отмечает, что, несмотря на её производительность, модель отсутствует в основных бенчмарках, таких как Artificial Analysis и Open LLM Leaderboard.

media r/LocalLLaMA · 11 ч назад

Clark Labs выпустила модель генерации изображений по тексту Sana 1.6B с тернарным квантованием

Clark Labs выпустила сжатую версию трансформатора для генерации изображений по тексту Sana 1.6B, квантованного до тернарных весов примерно по 1,85 бита на вес. Это сжатие приводит к тому, что модель в 8,6 раза меньше стандартной версии FP16, сохраняя качество, близкое к FP16.

media Hugging Face Forums · 12 ч назад

Пользователь ищет соавторов для нового проекта ML-датасета по судоку

Пользователь на форумах Hugging Face ищет соавторов для создания проекта в области машинного обучения и глубокого обучения, ориентированного на судоку. Автор начал создавать базу данных с нуля и стремится создать независимую организацию для этой цели.

media r/LocalLLaMA · 12 ч назад

Слепой визуальный парадигм для проверки переноса навыков в малых моделях без дообучения

Автор предлагает кросс-доменный слепой визуальный эксперимент, чтобы определить, может ли большая языковая модель сжать свое процедурное планирование в переиспользуемый каркас, который улучшает вывод малой модели без дообучения. Используя Three.js в качестве тестовой среды, исследование направлено на доказательство того, что этот перенос навыков является подлинным, а не просто переобучением на исходном домене.

media r/LocalLLaMA · 13 ч назад

Пользователь собирает локальную установку для LLM на максимуме с RTX Pro 5000 и Ryzen 9950X3D

Пользователь Reddit делится завершением высококлассной локальной рабочей станции для ИИ, оснащённой GPU NVIDIA RTX Pro 5000, CPU AMD Ryzen 9 9950X3D, 192 ГБ ОЗУ и 80 ГБ видеопамяти. Сборка была завершена после того, как заявка пользователя на участие в программе NVIDIA Inception была отклонена, а цены на RTX Pro 6000 превысили его бюджет.

media r/LocalLLaMA · 13 ч назад

Проверено, какая модель лучше всего отправляет HTML-письма

Недавно пользователь развернул инструмент Mailcue, включающий MCP-сервер для управления электронной почтой, и протестировал три конкретные модели, чтобы определить, какая из них генерирует наиболее визуально привлекательные HTML-письма. Оценивались следующие модели: google/gemma-4-26b-a4b-qat, qwen/qwen3.6-35b-a3b и qwen/qwen3.6-27b.