Все статьи
media r/LocalLLaMA · 6 ч назад

Скрипт для мониторинга llama_cpp и анализа использования памяти

Пользователь поделился скриптом на Bash, предназначенным для парсинга подробного вывода llama.cpp, предоставляющим четкую сводку требований к VRAM/RAM и метрик производительности во время выполнения. Этот инструмент решает проблему предсказания потребностей в памяти для различных квантизаций моделей путем группировки распределений буферов по функциям и бэкендам.

media r/LocalLLaMA · 6 ч назад

Обновление Ornith-1.0-35B GGUF: нативный MTP для спекулятивного декодирования + полная поддержка обслуживания/TTFT/длинного контекста (llama.cpp, tp=1)

В этой статье сообщается об обновлении модели Ornith-1.0-35B, включающем нативную голову черновика MTP, привитую к корпусу IQ4_XS для самоспекулятивного декодирования в llama.cpp. Автор предоставляет комплексные метрики производительности, включая пропускную способность, время до первого токена (TTFT) и возможности работы с длинным контекстом на одном GPU RTX PRO 6000 Blackwell.

media r/LocalLLaMA · 8 ч назад

Пользователь Reddit опровергает утверждения Дарио Амодей о закрытом ИИ

Пост на Reddit ставит под сомнение заявление Дарио Амодей о том, что модели с открытым исходным кодом уступают проприетарным системам, указывая на его непонимание технологии. Автор утверждает, что Амодей не осознаёт прозрачность и возможности современных моделей с открытыми весами.

media Hugging Face Forums · 8 ч назад

Гипотетический вопрос о обучении ИИ бинарному коду

Пользователь форума задаёт спекулятивный вопрос о том, приведёт ли обучение нейронных сетей или систем ИИ пониманию бинарного кода к значительному улучшению их общих возможностей, особенно в задачах программирования.

media Hugging Face Forums · 8 ч назад

Концепция: Обмен данными для обучения моделей ИИ

Пользователь предлагает концепцию веб-сайта, где люди обмениваются данными для обучения моделей ИИ, исключая необходимость денежных транзакций. Система работает на основе кредитной экономики, где пользователи получают стартовый набор кредитов и размещают задания за вознаграждение для конкретных потребностей в данных.

media Interconnects · 8 ч назад

Артефакты 22: Zyphra, Cohere и Poolside расширяют ширину экосистемы

Ландшафт открытых ИИ-моделей становится все более разнообразным, уходя от доминирования нескольких китайских игроков к более широкому смешению организаций, включая суверенные ИИ-инициативы, Big Tech и продуктовые компании.

github llama.cpp · 9 ч назад

Выпуск llama.cpp b9833: парсер MiniCPM5 и мультиплатформенные бинарники

Проект llama.cpp выпустил версию b9833, в которой представлен выделенный парсер для модели MiniCPM5 наряду с различными исправлениями ошибок и рефакторингом. Это обновление включает поддержку парсинга вызовов инструментов, упрощение грамматики и исправленное поведение Jinja API для обеспечения совместимости со стандартами Jinja2.

github llama.cpp · 10 ч назад

Выпуск llama.cpp b9832 добавляет флаг отладки --dump-prog

Проект llama.cpp выпустил версию b9832, вводя новую опцию командной строки `--dump-prog` для движка шаблонов Jinja, чтобы помочь в отладке. Это обновление также включает предварительно собранные бинарные файлы для macOS, Linux, Android, Windows и openEuler для различных архитектур CPU и GPU.

media r/LocalLLaMA · 10 ч назад

Предложение по созданию краудсорсинговых, открытых дистиллированных LLM через распределённое обучение

Пользователь Reddit предлагает систему для создания по-настоящему открытых дистиллированных больших языковых моделей путём обёртывания существующих сервисов ИИ с командной строкой. Этот подход позволит собирать пользовательские входные и выходные данные из таких приложений, как помощники по написанию кода или чат-боты, формируя огромные наборы данных за счёт участия добровольцев.

media r/LocalLLaMA · 11 ч назад

DeepSpec: коллекция моделей-черновиков DeepSeek AI для спекулятивного декодирования

DeepSpec — это полнофункциональная кодовая база, выпущенная deepseek-ai для обучения и оценки моделей-черновиков, используемых в спекулятивном декодировании. Проект предоставляет утилиты подготовки данных, реализацию кода и скрипты оценки для содействия разработке этих вспомогательных моделей.

media r/LocalLLaMA · 13 ч назад

Step-3.7-Flash (198B-A11B vision MoE) на 4×3090 — полностью резидентный IQ3_XXS превосходит переполняющий IQ4 в 2.4 раза, а MTP speculative decode молча ломает работу с изображениями

Пользователь демонстрирует запуск модели Step-3.7-Flash от StepFun на 198B параметров на потребительской конфигурации из 4×RTX 3090, выявляя критические компромиссы производительности между уровнями квантования и многозадачным предсказанием (MTP) с возможностями работы с изображениями.

media r/LocalLLaMA · 13 ч назад

Что потребуется для создания собственной LLM от /r/localllama?

Пользователь Reddit выражает обеспокоенность по поводу возможной потери доступа к открытым весам на оборудовании с памятью 96–128 ГБ и задаётся вопросом, реализуема ли крупная языковая модель, разрабатываемая сообществом.

media r/LocalLLaMA · 13 ч назад

Qwen3.6 27B локально против Opus 4.8: движок вокселей на чистом C без фреймворков

Эксперимент по сравнению поставил Claude Code на базе Opus 4.8 против локально запущенной модели Qwen3.6 27B для создания движка воксельного мира на чистом C без внешних фреймворков или библиотек.

media r/LocalLLaMA · 13 ч назад

Пользователи ставят под сомнение существование рейтингов закрытых и открытых LLM и ценность моделей на 70B–350B параметров

Пользователь Reddit спрашивает, существует ли надежный рейтинг, который сравнивает закрытые модели с открытыми весами в одном ряду. Он отмечает, что большинство доступных бенчмарков кажутся фрагментированными и не учитывают практические различия между запуском моделей локально и использованием API-сервисов.