Все статьи
media r/LocalLLaMA · 11 д назад

Проблемы с производительностью GPU R9700 при использовании vLLM и настройке нескольких GPU

Пользователь сообщает о серьезных проблемах с производительностью двух GPU AMD R9700, которые не могут запускаться с использованием vLLM при тензорной параллелизации (tp=2) из-за ошибок NCCL. Производительность одиночного GPU при инференсе крайне низка — 30 tps для модели Qwen 0.6B и только 5 tps для модели 27B INT4 AWQ, несмотря на правильную установку ROCm и настройку системы.

media r/LocalLLaMA · 11 д назад

Почему AutoRound так сильно игнорируется?

AutoRound значительно превосходит стандартные AWQ и RTN по перплексити и точности, особенно в сложных задачах рассуждения и длинных контекстах. Он по умолчанию экспортируется в GGUF, избегая проблем с преобразованием, и работает на любой конфигурации PyTorch, однако всё же остаётся малоиспользуемым, несмотря на эти преимущества.

media r/LocalLLaMA · 11 д назад

Я отслеживал каждую конфигурационную файл для агента и пометил реальное внедрение

Руководство содержит 21 конвенцию настройки агента по 11 категориям, помеченных как внедрённые, развивающиеся или предложенные. В руководстве приведены реальные примеры из публичных репозиториев и явно указаны преувеличения, такие как llms.txt, который широко публикуется, но не подтверждён крупными поставщиками.

media r/LocalLLaMA · 11 д назад

Предложение о разделении базовых моделей для избежания переобучения

Предложение предлагает разделить архитектуру модели на стабильную базовую модель и легковесные, заменяемые рабочие модели. Базовая модель отвечает за основные рассуждения и выступает в роли платформы, в то время как рабочие модели обеспечивают специализированные знания через динамическое подключение в режиме выполнения, аналогично LoRA, но для знаний, а не для поведения.

media r/LocalLLaMA · 11 д назад

Следите за тем, как локальные LLM выходят из комнат, которые вы создаете

Новый инструмент позволяет пользователям создавать среды в стиле комнат для ухода и наблюдать, как локальные LLM перемещаются и выходят из них с помощью простых действий. Проект, разработанный для хакатона "Build Small" Hugging Face x Gradio, поддерживает пять шаблонов моделей и позволяет создавать пользовательские карты с визуализацией на основе шрифтов и импортом/экспортом в формате JSON. Он использует рамку "Мысль, затем действие", чтобы обеспечить надежную работу малых моделей в структурированных игровых средах.

media r/LocalLLaMA · 11 д назад

GLM-5.2 побеждает Гемини и GPT-5.4 в программировании, но является неэффективным

GLM-5.2 превосходит GPT-5.4 и всю линейку Гемини по производительности в программировании на бенчмарке DeepSWE. Однако он требует значительно большего количества токенов вывода, что делает его существенно менее эффективным с точки зрения затрат на задачу по сравнению с моделями, такими как GPT-5.5 и Claude Opus 4.8.

media r/LocalLLaMA · 11 д назад

Gemma 4 QAT лучше реагирует на квантование кэша KV

Пост на Reddit сообщает, что при использовании квантования кэша KV Gemma 4 QAT демонстрирует значительное улучшение производительности, измеренное на датасете wikitext с контекстом в 16k. Пользователь отмечает, что его аппаратные ограничения делают возможным тестирование моделей на 31B, и приглашает других исследовать полученные результаты.

media r/LocalLLaMA · 11 д назад

Вице-президент Vercel говорит, что почти шокировано от способностей GLM-5.2 в программировании

Гуильемо Рауч, вице-президент Vercel, отметил, что он 'настоящим образом впечатлен, почти шокирован' производительностью GLM-5.2 в задачах программирования. Он поделился этим комментарием в посте на X, подчеркнув сильные способности модели к генерации кода.

media r/LocalLLaMA · 11 д назад

Qwen 3.7 не будет открытой версии

После ухода Юньян Лина, Qwen прекратил открытую разработку своих моделей. К июню 2026 года все основные китайские лаборатории ИИ, кроме Qwen, выпустили открытые модели, которые были представлены позже, чем Qwen 3.7, который остается полностью закрытым.

media r/LocalLLaMA · 11 д назад

Предлагаемая модель чувств использует только эмодзи

Предлагаемая модель, называемая 'моделью чувств', предназначена для мышления исключительно через эмодзи. Идея заключается в создании первой модели, которая коммуницирует полностью через эмоциональные выражения эмодзи.

media r/LocalLLaMA · 12 д назад

AllenAI выпустил модели MolmoMotion для прогнозирования движений в будущем

AllenAI выпустил две модели MolmoMotion, которые прогнозируют трёхмерные траектории точек на основе коротких историй видео и естественных языковых инструкций. Одна модель использует историю из трёх кадров, другая — из одного кадра, что позволяет прогнозировать будущее движение объектов в трёхмерном пространстве.

media r/LocalLLaMA · 12 д назад

SupraLabs запускает семейство моделей Any2Any

SupraLabs представила модель Supra-A2A-Nano-Exp, многомодальную модель на 30 млн параметров, которая объединяет текст, изображения и видео в один поток токенов. Модель рассматривает все модальности как токены в общей последовательности, позволяя проводить моделирование языка на совокупном словаре из 50 520 токенов без отдельных визуальных кодировщиков или модулей перекрестного внимания.

media r/LocalLLaMA · 12 д назад

Что вы перепроектируете, на что никто никогда не будет использовать? Будьте честны.

Пост на Reddit просит пользователей быть честными в отношении перепроектированных функций или систем, которые никто никогда не будет использовать. Пост побуждает к размышлениям о ненужной сложности в разработке программного обеспечения.

github llama.cpp · 12 д назад

Релиз LLaMA.cpp b9744: Новые бинарники и функции

LLaMA.cpp выпускает версию b9746 с обновлёнными бинарниками для macOS, Linux, Android, Windows и openEuler. В релизе включено поддержка нескольких архитектур и аппаратных ускорителей, таких как Vulkan, CUDA, OpenVINO, SYCL и ROCm. Также доступен пакет интерфейса для доступа к пользовательскому интерфейсу.

media r/LocalLLaMA · 12 д назад

Лучшая открытая модель визуального анализа, работающая на RTX 6000 Pro

Пользователь ищет текущую лучшую открытую модель визуального анализа, которая может работать на RTX 6000 Pro для распознавания текста и классификации исторических сканированных документов. Он отмечает, что Gemma 4 31B работает хорошо и превосходит визуальный декодер Qwen 3.6, и просит рекомендации по моделям за пределами этой модели.

media r/LocalLLaMA · 12 д назад

semantic-memory: локальная база знаний с типизированными графовыми рёбрами

semantic-memory — это локальная база знаний на языке Rust, которая объединяет поисковые методы BM25, векторного поиска и синтеза по рекурсивному ранжированию с SQLite. В ней реализованы типизированные графовые рёбра для причинных, временных и семантических связей, отслеживание происхождения, би-временная хранение и адаптивное направление запросов, поддерживая 18 инструментов MCP для ИИ-агентов. Все компоненты работают локально без зависимостей от облака, ключей API или телеметрии.

media r/LocalLLaMA · 12 д назад

Что я могу запустить на моей системе Tesla V100 32GB?

С GPU Tesla V100 32GB и системой из двух процессоров Xeon на Dell PowerEdge 730 с 384 ГБ DDR4 и несколькими терабайтами хранилища пользователи могут запускать локальные большие языковые модели (LLM) для экспериментов. Объем памяти и хранилища системы обеспечивает эффективное локальное выполнение и обучение моделей.