Поддержка DFlash объединена с llama.cpp
Поддержка формата DFlash была объединена с репозиторием llama.cpp. Это обновление позволяет пользователям использовать файлы DFlash в рамках фреймворка.
Поддержка формата DFlash была объединена с репозиторием llama.cpp. Это обновление позволяет пользователям использовать файлы DFlash в рамках фреймворка.
Пользователь демонстрирует запуск модели Step-3.7-Flash от StepFun на 198B параметров на потребительской конфигурации из 4×RTX 3090, выявляя критические компромиссы производительности между уровнями квантования и многозадачным предсказанием (MTP) с возможностями работы с изображениями.
Пользователь Reddit выражает обеспокоенность по поводу возможной потери доступа к открытым весам на оборудовании с памятью 96–128 ГБ и задаётся вопросом, реализуема ли крупная языковая модель, разрабатываемая сообществом.
Пользователь Reddit спрашивает, стоит ли ему продать половину своей оперативной памяти DDR5 6400 ECC объемом 768 ГБ, чтобы приобрести видеокарты RTX 6000 Pro, ссылаясь на текущие цены на RAM.
Пользователь собирает локальную рабочую станцию для LLM на материнской плате ASUS Crosshair VIII Hero и двух видеокартах RTX 3090 с ограничением мощности, ищет рекомендации по совместимым корпусам.
Эксперимент по сравнению поставил Claude Code на базе Opus 4.8 против локально запущенной модели Qwen3.6 27B для создания движка воксельного мира на чистом C без внешних фреймворков или библиотек.
Пользователь Reddit спрашивает, существует ли надежный рейтинг, который сравнивает закрытые модели с открытыми весами в одном ряду. Он отмечает, что большинство доступных бенчмарков кажутся фрагментированными и не учитывают практические различия между запуском моделей локально и использованием API-сервисов.
Пользователь Reddit спрашивает сообщество об их опыте использования уровней квантования Q1 или Q2 для больших языковых моделей с количеством параметров от 100 до 250 миллиардов. В посте перечислены конкретные модели этого размера, такие как DeepSeek-V4-Flash и Qwen3-235B-A22B, и проводится их сравнение с более маленькими моделями, где низкое квантование обычно не рекомендуется.
Выпуск llama.cpp b9830 вводит возможность использования флага --offline с командой llama download, позволяя скриптам проверять закэшированные модели без доступа к сети. Это обновление также устраняет скрытую уязвимость use-after-free в колбэке on_done URL-задачи, где first_path был неверно захвачен по ссылке.
Пользователь на форумах Hugging Face спрашивает, возможно ли восстановить его аккаунт, конкретно указывая имя пользователя "zhoucantd". В посте упоминается поток обсуждения с участием двух человек по этому запросу.
Новая концепция под названием UCTF (Universal Compressed Training Format) предлагает слой-посредник для устранения семантической избыточности при обучении многоязычных LLM путем сжатия разнообразных языков в унифицированный, независимый от языка формат токенов.
Пользователь сообщает, что его ранее работавший виджет AI-чатбота на сайте перестал функционировать из-за ошибки политики CORS после недавнего обновления Gradio. Ошибка указывает на то, что заголовок 'Access-Control-Allow-Credentials' в ответе пуст, что конфликтует с режимом учётных данных запроса клиента.
В этой статье утверждается, что большие языковые модели (LLM) получают свой кажущийся интеллект из глубоких геометрических связей и скрытых состояний, присущих самому языку, а не из независимых механических вычислений или простого предсказания токенов.
Пользователь на сабреддите LocalLLaMA сообщает, что его локальная LLM на основе llama.cpp начала сталкиваться с блоками CAPTCHA от DuckDuckGo этим утром. В статье спрашивается, испытывают ли другие пользователи подобные проблемы с антибот-мерами DuckDuckGo.
Пользователь Reddit запрашивает реальные данные о корпоративных развертываниях самостоятельного размещения искусственного интеллекта, проводя различие между фактическим производственным использованием и любительскими тестами.
Пользователь Reddit опубликовал изображение, показывающее интерфейс приложения, требующий сканирование лица, проверку отпечатков пальцев и верификацию паспорта для участия в предварительном просмотре GPT 5.6 Sol. В посте эти строгие шаги проверки личности характеризуются как необычные или «дикие» для доступа к превью модели.
Разработчик выпустил реализацию на чистом C для движка вывода, специально предназначенного для моделей Qwen 3 размером 4B и менее. Проект доступен на GitHub в качестве учебного ресурса, который ставит во главу угла читаемость кода и образовательную ценность, а не сырую производительность.
Этот пост на Reddit делится мемом с цитатами Владика и Шоу из 𝕏 о будущих потребностях в этой области.
Whisperian — это приложение для Android, позволяющее пользователям использовать вход с микрофона с локальными моделями автоматического распознавания речи (ASR). Приложение доступно для загрузки в Google Play Store.
Проект llama.cpp выпустил версию b9829, которая включает сокращение вывода логов в сервере, общих компонентах и модулях спекулятивного декодирования. Это обновление также стандартизирует соглашения об именах, заменяя CMN_ на COM_.