Все статьи
media r/LocalLLaMA · 13 д назад

Лучшее место для продажи почти неиспользованного RTX PRO 6000 Blackwell Max-Q

Пользователь спрашивает, где можно продать почти неиспользованный RTX PRO 6000 Blackwell Max-Q, купленный для локальной инференс-обработки ИИ с минимальным использованием. Он рассматривает r/hardwareswap, eBay или специализированные рынки для профессионалов и рабочих станций, и просит совет по реалистичной цене и ожиданиям покупателей, таким как передача гарантии или инвойса.

media Don't Worry About the Vase · 13 д назад

Белый дом останавливает внедрение ИИ

Белый дом в США остановил внедрение передовых моделей ИИ, включая Claude Fable 5 и Claude Mythos 5, указав на отчёт о 'выходе из системы', при котором ИИ мог определять и исправлять уязвимости в коде. Anthropic работает с администрацией Трампа по устранению проблемы, однако эксперты считают, что проблема фундаментальная — ИИ либо может писать безопасный код, либо не может, что делает исправление невозможным без подрыва его защитных возможностей.

media r/LocalLLaMA · 13 д назад

SLMs и диффузии: Будущее малых, специализированных моделей?

Пользователи обсуждают, может ли задачеспецифичная малая языковая модель (SLM) превосходить более крупные модели в определённых задачах, приводя примеры бенчмарков, где модели на 9 миллиардов параметров достигают или превосходят более крупные. Они предлагают последовательный агентский поток, использующий несколько специализированных моделей, при этом одна координирует, а другие проверяют ответы, предполагая, что диффузионные модели могут ускорять такие потоки, несмотря на снижение интеллекта.

media r/LocalLLaMA · 13 д назад

Квантование кэша KV NVFP4 на SM120 сделает системы с 32 ГБ ОЗУ очень мощными

Qwen3.6-27B работает со скоростью около 60 токенов в секунду на 32 ГБ ОЗУ с квантованием кэша KV в формате FP8. Квантование кэша KV NVFP4 на SM120 может значительно повысить производительность на таких системах, хотя текущая реализация пока недоступна.

media r/LocalLLaMA · 13 д назад

Мощь интеллекта лучше лежит в руках людей, чем в кабинетах магнатов

Проект PearlOS запустил открытую платформу для распределённого интеллекта, которая использует локальные модели для выполнения многомодальных задач. Она автоматически выбирает и переключается между наиболее эффективными моделями на основе критериев оценки, обеспечивая пользователям постоянный доступ к самым новым и наиболее мощным моделям, не завися от закрытых систем или подписок.

media r/LocalLLaMA · 13 д назад

Создатель GLM говорит, что GLM-fable может быть выпущен к концу года?

Создатель GLM заявил на Reddit, что GLM-fable может быть выпущен к концу года. Пост возник в обсуждении пользователя на форуме LocalLLaMA, где утверждение представлено без подтверждения или официального объявления.

media r/LocalLLaMA · 13 д назад

ОПЕН-СОУС-модели decisively overtook proprietary models in market share

На основании данных OpenRouter за последние три месяца, открытые модели превзошли проприетарные модели по доле рынка. Анализ показывает значительный сдвиг в сторону открытых языковых моделей в общей экосистеме ИИ.

media r/LocalLLaMA · 13 д назад

Llama Bench vs Реальное отклонение производительности

Пользователь сообщает о значительной разнице между результатами Llama benchmark и реальной производительностью модели. Бенчмарки показывают 754 токен/с при предварительной загрузке и 36 токен/с при генерации, однако в реальных условиях наблюдается только 7,98 токена в секунду, с высокой задержкой и плохим пропускным расходом. Отклонение объясняется реальными условиями использования, а не настройками бенчмарка, что указывает на то, что реальная производительность модели значительно ниже скорости, указанной в бенчмарке.

media r/LocalLLaMA · 13 д назад

Локальный агент LLM теперь генерирует изображения и видео в автономном режиме

Пользователь поделился тем, что их локальный агент LLM оснащен инструментами MCP для прямого генерирования изображений и видео. Система работает полностью автономно и является бесплатной для использования, подробности и исходный код доступны в комментариях.

github llama.cpp · 13 д назад

llama.cpp release b9700: new binaries and SYCL API updates

llama.cpp version b9700 вводит обновленную поддержку SYCL с переименованными флагами API: GGML_SYCL_SUPPORT_LEVEL_ZERO переименован в GGML_SYCL_SUPPORT_LEVEL_ZERO_API и GGML_SYCL_ENABLE_LEVEL_ZERO переименован в GGML_SYCL_USE_LEVEL_ZERO_API. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения, включая Vulkan, ROCm, OpenVINO и SYCL.

github llama.cpp · 13 д назад

LLaMA.cpp Release b9698 Добавляет поддержку самоподписки и бинарники для нескольких платформ

Версия LLaMA.cpp b9698 позволяет включать самоподписку только при сборке с помощью llama-install.sh. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 13 д назад

Запуск Keye-VL-2.0-30B-A3B с продвинутыми возможностями понимания видео и функциями агента

Keye-VL-2.0-30B-A3B — это мультимодальный модель с 30 миллиардами параметров, разработанный для понимания длинных видео и функционирования агента. Она превосходит открытые конкурентов и достигает уровня Gemini-3-Flash в временной фиксации, поддерживает до 256K контекста с почти безпотерьным рассуждением и включает встроенные возможности для агентов по коду, инструментам и поиску в интернете.

github llama.cpp · 13 д назад

Релиз LLaMA.cpp b9697: Новые бинарники и обновления

LLaMA.cpp выпускает версию b9697 с обновлёнными бинарниками для macOS, Linux, Android, Windows и openEuler. В релизе включено поддержка ARM64, x64, Vulkan, CUDA 12 и 13, OpenVINO, SYCL и ROCm, а также исправлено баговое поведение при парсинге сообщений в проверках релиза.

media r/LocalLLaMA · 13 д назад

Дата быстрой версии GLM-5.2 (шутка)

Пользователь Reddit шутит о том, что Z.ai открыт исходный код GLM-5.2, выражая энтузиазм по поводу следующего поколения GLM-4.7-flash. В посте с юмором предлагается, что модель в диапазоне от 27 до 120 миллиардов параметров будет идеальной, хотя это представлено как шутка.

github AutoGPT · 13 д назад

Релиз autogpt-platform-beta-v0.6.64

Релиз autogpt-platform-beta-v0.6.64, датированной 18 июня 2026 года, вводит новые функции, такие как панель AutoPilot и глобальный поиск, а также улучшения в сохранении графов, кэшировании и производительности конструктора. В нём также содержатся меры по усилению безопасности, устранение ошибок в работе поставщиков LLM и улучшения интерфейса, включая высокоразрешающую иконку для сенсорного управления.

github CrewAI · 13 д назад

CrewAI v1.14.8a выпустил новые функции FlowDefinition

CrewAI v1.14.8a вводит скрипты и действия команды в FlowDefinition, добавляет поддержку режима DMN и позволяет выполнять потоки без кода на Python. Также включены экспериментальные возможности для команд на основе JSON и отказоустойчивое развертывание через ZIP, а также улучшена работа с памятью и отслеживание использования токенов.