Все статьи
media r/LocalLLaMA · 8 ч назад

Пользователь реализует выполнение C++ инструмента с помощью MiMo-V2.5-GGUF

Пользователь успешно использовал модель MiMo-V2.5-GGUF для написания встроенного инструмента llama.cpp для выполнения кода на C++ и получения результатов. Реализация была выполнена с использованием opencode, где модель сгенерировала необходимый код на основе конкретных инструкций.

media r/LocalLLaMA · 8 ч назад

Почему так много мусорных дообученных моделей на HuggingFace?

Автор отмечает, что большинство дообученных моделей, загруженных на Hugging Face, работают хуже своих базовых аналогов, что делает их бесполезными. Это распространение объясняется тем, что люди используют эти модели как форму профессиональной сертификации для получения высокооплачиваемых позиций в сфере ИИ.

github llama.cpp · 9 ч назад

Выпуск llama.cpp b9835 с исправлениями остановки и пропуска рассуждений в интерфейсе

Проект llama.cpp выпустил версию b9835, которая включает исправление функциональности остановки и пропуска рассуждений в режиме одной модели. Это обновление устраняет определенные проблемы в пользовательском интерфейсе для улучшения управления во время вывода модели.

media r/LocalLLaMA · 10 ч назад

Скрипт для мониторинга llama_cpp и анализа использования памяти

Пользователь поделился скриптом на Bash, предназначенным для парсинга подробного вывода llama.cpp, предоставляющим четкую сводку требований к VRAM/RAM и метрик производительности во время выполнения. Этот инструмент решает проблему предсказания потребностей в памяти для различных квантизаций моделей путем группировки распределений буферов по функциям и бэкендам.

media r/LocalLLaMA · 10 ч назад

Обновление Ornith-1.0-35B GGUF: нативный MTP для спекулятивного декодирования + полная поддержка обслуживания/TTFT/длинного контекста (llama.cpp, tp=1)

В этой статье сообщается об обновлении модели Ornith-1.0-35B, включающем нативную голову черновика MTP, привитую к корпусу IQ4_XS для самоспекулятивного декодирования в llama.cpp. Автор предоставляет комплексные метрики производительности, включая пропускную способность, время до первого токена (TTFT) и возможности работы с длинным контекстом на одном GPU RTX PRO 6000 Blackwell.

media r/LocalLLaMA · 11 ч назад

Пользователь Reddit опровергает утверждения Дарио Амодей о закрытом ИИ

Пост на Reddit ставит под сомнение заявление Дарио Амодей о том, что модели с открытым исходным кодом уступают проприетарным системам, указывая на его непонимание технологии. Автор утверждает, что Амодей не осознаёт прозрачность и возможности современных моделей с открытыми весами.

media Hugging Face Forums · 11 ч назад

Гипотетический вопрос о обучении ИИ бинарному коду

Пользователь форума задаёт спекулятивный вопрос о том, приведёт ли обучение нейронных сетей или систем ИИ пониманию бинарного кода к значительному улучшению их общих возможностей, особенно в задачах программирования.

media Hugging Face Forums · 11 ч назад

Концепция: Обмен данными для обучения моделей ИИ

Пользователь предлагает концепцию веб-сайта, где люди обмениваются данными для обучения моделей ИИ, исключая необходимость денежных транзакций. Система работает на основе кредитной экономики, где пользователи получают стартовый набор кредитов и размещают задания за вознаграждение для конкретных потребностей в данных.

media Interconnects · 12 ч назад

Артефакты 22: Zyphra, Cohere и Poolside расширяют ширину экосистемы

Ландшафт открытых ИИ-моделей становится все более разнообразным, уходя от доминирования нескольких китайских игроков к более широкому смешению организаций, включая суверенные ИИ-инициативы, Big Tech и продуктовые компании.

github llama.cpp · 12 ч назад

Выпуск llama.cpp b9833: парсер MiniCPM5 и мультиплатформенные бинарники

Проект llama.cpp выпустил версию b9833, в которой представлен выделенный парсер для модели MiniCPM5 наряду с различными исправлениями ошибок и рефакторингом. Это обновление включает поддержку парсинга вызовов инструментов, упрощение грамматики и исправленное поведение Jinja API для обеспечения совместимости со стандартами Jinja2.

github llama.cpp · 14 ч назад

Выпуск llama.cpp b9832 добавляет флаг отладки --dump-prog

Проект llama.cpp выпустил версию b9832, вводя новую опцию командной строки `--dump-prog` для движка шаблонов Jinja, чтобы помочь в отладке. Это обновление также включает предварительно собранные бинарные файлы для macOS, Linux, Android, Windows и openEuler для различных архитектур CPU и GPU.

media r/LocalLLaMA · 14 ч назад

Предложение по созданию краудсорсинговых, открытых дистиллированных LLM через распределённое обучение

Пользователь Reddit предлагает систему для создания по-настоящему открытых дистиллированных больших языковых моделей путём обёртывания существующих сервисов ИИ с командной строкой. Этот подход позволит собирать пользовательские входные и выходные данные из таких приложений, как помощники по написанию кода или чат-боты, формируя огромные наборы данных за счёт участия добровольцев.

media r/LocalLLaMA · 14 ч назад

DeepSpec: коллекция моделей-черновиков DeepSeek AI для спекулятивного декодирования

DeepSpec — это полнофункциональная кодовая база, выпущенная deepseek-ai для обучения и оценки моделей-черновиков, используемых в спекулятивном декодировании. Проект предоставляет утилиты подготовки данных, реализацию кода и скрипты оценки для содействия разработке этих вспомогательных моделей.

media r/LocalLLaMA · 16 ч назад

Step-3.7-Flash (198B-A11B vision MoE) на 4×3090 — полностью резидентный IQ3_XXS превосходит переполняющий IQ4 в 2.4 раза, а MTP speculative decode молча ломает работу с изображениями

Пользователь демонстрирует запуск модели Step-3.7-Flash от StepFun на 198B параметров на потребительской конфигурации из 4×RTX 3090, выявляя критические компромиссы производительности между уровнями квантования и многозадачным предсказанием (MTP) с возможностями работы с изображениями.

media r/LocalLLaMA · 16 ч назад

Что потребуется для создания собственной LLM от /r/localllama?

Пользователь Reddit выражает обеспокоенность по поводу возможной потери доступа к открытым весам на оборудовании с памятью 96–128 ГБ и задаётся вопросом, реализуема ли крупная языковая модель, разрабатываемая сообществом.