Все статьи — korshunov.ai

Все статьи Страница 1 / 130

Мой робот-сумка получает эффект от реального датчика газа

Реальный датчик газа MQ-2 обнаруживает дым и передает живые данные в LLM-сэмплер, корректируя температуру, top_p и top_k в реальном времени. По мере увеличения дыма речь робота становится более цикличной и ассоциативной, без заранее скриптового режима 'пьяного', демонстрируя живое поведение модели, вызванное физическим вводом.

media r/LocalLLaMA · 13 д назад

mistral.rs v0.8.10 добавляет поддержку /v1/skills для локальных моделей

mistral.rs v0.8.10 вводит открытую совместимую с OpenAI функцию агентов навыков через конечную точку /v1/skills, позволяющую локальным моделям выполнять инструкции и скрипты в определённых областях без зависимости от API frontier. Обновление поддерживает инструменты, такие как загрузка и скачивание файлов через /v1/files, и включает предварительно скомпилированные бинарники для Linux, macOS и Windows.

media r/LocalLLaMA · 13 д назад

Бесплатный доступ к инференсу GLM-5.2 на Hugging Face в течение следующих 6 часов

Hugging Face предоставляет бесплатный доступ к инференсу модели GLM-5.2 в течение следующих шести часов. Пользователи могут получить доступ к модели через платформу Hugging Face, с рекомендованным промптом, указанным в посте.

media r/LocalLLaMA · 13 д назад

unsloth GLM-5.2-GGUF с 2-битной квантованией на 238 ГБ

Модель unsloth GLM-5.2-GGUF доступна с 2-битной квантованией, размером 238 ГБ. Она размещена на Hugging Face и поделена в посте в сообществе LocalLLaMA на Reddit.

media r/LocalLLaMA · 13 д назад

GLM-5.2 — лучшая открытая модель креативного письма

Оценка Сэма Пэча по критерию креативного письма на EQ Bench определяет GLM-5.2 как лучшую открытую модель креативного письма. Оценка основана на метриках производительности в тесте креативного письма EQ Bench.

github llama.cpp · 13 д назад

llama.cpp Release b9702: Исправления и новые бинарники

Версия llama.cpp b9702 включает исправление ошибки, при которой аргументы роутера не передаются детям. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, ROCm, OpenVINO и SYCL.

media r/LocalLLaMA · 13 д назад

Лучшее место для продажи почти неиспользованного RTX PRO 6000 Blackwell Max-Q

Пользователь спрашивает, где можно продать почти неиспользованный RTX PRO 6000 Blackwell Max-Q, купленный для локальной инференс-обработки ИИ с минимальным использованием. Он рассматривает r/hardwareswap, eBay или специализированные рынки для профессионалов и рабочих станций, и просит совет по реалистичной цене и ожиданиям покупателей, таким как передача гарантии или инвойса.

media Don't Worry About the Vase · 13 д назад

Белый дом останавливает внедрение ИИ

Белый дом в США остановил внедрение передовых моделей ИИ, включая Claude Fable 5 и Claude Mythos 5, указав на отчёт о 'выходе из системы', при котором ИИ мог определять и исправлять уязвимости в коде. Anthropic работает с администрацией Трампа по устранению проблемы, однако эксперты считают, что проблема фундаментальная — ИИ либо может писать безопасный код, либо не может, что делает исправление невозможным без подрыва его защитных возможностей.

media r/LocalLLaMA · 13 д назад

SLMs и диффузии: Будущее малых, специализированных моделей?

Пользователи обсуждают, может ли задачеспецифичная малая языковая модель (SLM) превосходить более крупные модели в определённых задачах, приводя примеры бенчмарков, где модели на 9 миллиардов параметров достигают или превосходят более крупные. Они предлагают последовательный агентский поток, использующий несколько специализированных моделей, при этом одна координирует, а другие проверяют ответы, предполагая, что диффузионные модели могут ускорять такие потоки, несмотря на снижение интеллекта.

media r/LocalLLaMA · 13 д назад

Квантование кэша KV NVFP4 на SM120 сделает системы с 32 ГБ ОЗУ очень мощными

Qwen3.6-27B работает со скоростью около 60 токенов в секунду на 32 ГБ ОЗУ с квантованием кэша KV в формате FP8. Квантование кэша KV NVFP4 на SM120 может значительно повысить производительность на таких системах, хотя текущая реализация пока недоступна.

media r/LocalLLaMA · 13 д назад

Мощь интеллекта лучше лежит в руках людей, чем в кабинетах магнатов

Проект PearlOS запустил открытую платформу для распределённого интеллекта, которая использует локальные модели для выполнения многомодальных задач. Она автоматически выбирает и переключается между наиболее эффективными моделями на основе критериев оценки, обеспечивая пользователям постоянный доступ к самым новым и наиболее мощным моделям, не завися от закрытых систем или подписок.

media r/LocalLLaMA · 13 д назад

Создатель GLM говорит, что GLM-fable может быть выпущен к концу года?

Создатель GLM заявил на Reddit, что GLM-fable может быть выпущен к концу года. Пост возник в обсуждении пользователя на форуме LocalLLaMA, где утверждение представлено без подтверждения или официального объявления.

github llama.cpp · 13 д назад

llama.cpp release b9701: new preprocessor and cross-platform binaries

llama.cpp version b9701 introduces a refactored preprocessor with a new mtmd_image_preproc_out feature and updated developer documentation. The release includes binaries for macOS, Linux, Android, Windows, and openEuler across multiple architectures and hardware acceleration options, including Vulkan, CUDA, OpenVINO, and SYCL.

media r/LocalLLaMA · 13 д назад

ОПЕН-СОУС-модели decisively overtook proprietary models in market share

На основании данных OpenRouter за последние три месяца, открытые модели превзошли проприетарные модели по доле рынка. Анализ показывает значительный сдвиг в сторону открытых языковых моделей в общей экосистеме ИИ.

media r/LocalLLaMA · 13 д назад

Llama Bench vs Реальное отклонение производительности

Пользователь сообщает о значительной разнице между результатами Llama benchmark и реальной производительностью модели. Бенчмарки показывают 754 токен/с при предварительной загрузке и 36 токен/с при генерации, однако в реальных условиях наблюдается только 7,98 токена в секунду, с высокой задержкой и плохим пропускным расходом. Отклонение объясняется реальными условиями использования, а не настройками бенчмарка, что указывает на то, что реальная производительность модели значительно ниже скорости, указанной в бенчмарке.

media r/LocalLLaMA · 13 д назад

Локальный агент LLM теперь генерирует изображения и видео в автономном режиме

Пользователь поделился тем, что их локальный агент LLM оснащен инструментами MCP для прямого генерирования изображений и видео. Система работает полностью автономно и является бесплатной для использования, подробности и исходный код доступны в комментариях.

github llama.cpp · 13 д назад

llama.cpp release b9700: new binaries and SYCL API updates

llama.cpp version b9700 вводит обновленную поддержку SYCL с переименованными флагами API: GGML_SYCL_SUPPORT_LEVEL_ZERO переименован в GGML_SYCL_SUPPORT_LEVEL_ZERO_API и GGML_SYCL_ENABLE_LEVEL_ZERO переименован в GGML_SYCL_USE_LEVEL_ZERO_API. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения, включая Vulkan, ROCm, OpenVINO и SYCL.

media r/LocalLLaMA · 13 д назад

Доступность локальной версии Le Chaton Fat Flash

Пользователи выражают интерес к локальной, "флеш" версии Le Chaton Fat для обеспечения приватности и суверенности. Сообщество просит обновления по срокам, когда может быть доступна такая лёгкая локальная версия.

github llama.cpp · 13 д назад

LLaMA.cpp Release b9698 Добавляет поддержку самоподписки и бинарники для нескольких платформ

Версия LLaMA.cpp b9698 позволяет включать самоподписку только при сборке с помощью llama-install.sh. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 13 д назад

llama.cpp Release b9699 Adds SYCL Support and Multiple Platform Binaries

llama.cpp version b9699 introduces support for MUL_MAT and OUT_PROD operations with Q1_0 precision via PR #24721. The release includes precompiled binaries for macOS, Linux, Android, Windows, and openEuler across multiple architectures and acceleration frameworks, including SYCL (FP32 and FP16), Vulkan, CUDA, ROCm, and OpenVINO.