API & product launches
media r/LocalLLaMA · 5 д назад

Локальный агент доступа к веб-сайтам через SearXNG и Scrapling

Локальный агент может получить доступ к веб-сайтам без использования платных API, используя саморазвернутый SearXNG для поиска и Scrapling с помощью Trafilatura для извлечения содержимого страниц. Настройка избегает зависимостей от поставщиков, использует открытые инструменты и обеспечивает результаты поиска и содержимое страниц в формате Markdown, с резервными вариантами для CAPTCH и других защитных механизмов.

media r/LocalLLaMA · 5 д назад

SupraLabs выпустил supra-title-FFT-preview с 115K образцов

SupraLabs представил модель генерации чат-заголовков supra-title-FFT-preview, обученную на 115K образцов из отфильтрованного датасета, расширяя охват по сравнению с предыдущей моделью из 12K образцов. Модель использует полную настройку на LiquidAI/LFM2.5-350M-Base с точностью BF16 и предназначена для генерации заголовков чатов в однозадачном режиме, доступна через Hugging Face и поддерживает прямую загрузку или развертывание с помощью vLLM.

github llama.cpp · 5 д назад

ggml-webgpu Добавляет переключатели адаптера для поддержки F16 на Vulkan и NVIDIA

Проект ggml-webgpu добавил переключатели адаптера для поддержки полупrecision (F16) на видеокартах Vulkan и NVIDIA. Обновление позволяет повысить производительность на совместимом оборудовании на нескольких платформах, включая macOS, Linux, Android, Windows и openEuler, с конкретными сборками для архитектур ARM и x64.

media r/LocalLLaMA · 5 д назад

Лучшие локальные агенты - июнь 2026

Обсуждение определяет лучшие локальные ИИ-агенты, доступные сегодня, подчеркивая модели с открытым весом и выполнение на локальной аппаратной части. В посте определяется понятие "агентов" как автономного программного обеспечения, которое самостоятельно принимает решения о действиях без предварительной программы, в отличие от инструментов, таких как IFTTT или Apple Shortcuts, и устанавливаются правила, требующие локальной развертывания и программного обеспечения агентов на открытом источнике как основное внимание.

github llama.cpp · 5 д назад

Релиз LLaMA.cpp b9729: Новые бинарники и поддержка платформ

LLaMA.cpp выпускает версию b9729 с бинарниками для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе включены поддержка CPU, Vulkan, OpenVINO, SYCL и ROCm, а также новый пакет интерфейса. Удалены внутренние ссылки на 'webui'.

media r/LocalLLaMA · 5 д назад

Как настроить поиск с помощью моделей ИИ

Пользователь спрашивает, как интегрировать модель Gemma 4 12B с возможностями поиска, используя самовыполняемые ИИ-модели. Он упоминает попытки использования openwebui, который имеет проблемы с поисковыми системами, такими как DDG, и ищет альтернативы, избегающие использования ключей API от Brave или Google.

github llama.cpp · 5 д назад

Релиз LLaMA.cpp b9728 добавляет поддержку строк комментариев и бинарные файлы для нескольких платформ

Версия LLaMA.cpp b9728 вводит поддержку строк комментариев в конфигурации --api-key-file. В релизе представлены предварительно скомпилированные бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах аппаратного ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 5 д назад

Лучший кейс для поиска в интернете

Пользователи отмечают, что инструменты, такие как LM Studio и Odysseus, ограничены количеством запросов к поисковым системам, часто в размере 10 в день или в час, без доступа к API. Они предлагают создавать аккаунты в DuckDuckGo API для лучшего доступа к поиску, но отмечают, что фронтенды редко просят об этом. В посте задаётся вопрос о том, предлагают ли Hermes или Pi улучшенные решения.

github OpenAI Agents SDK · 6 д назад

Примечания по выпуску v0.17.6

В выпуске v0.17.6 добавлены предварительные правила ввода инструмента и SDK-только данные для вывода инструмента. Также введена строгая совместимость JSON для вывода инструмента и подавляются предупреждения о лишних пробелах в названиях инструментов. @siddiksawani сделал свой первый вклад в этот выпуск.

blog Simon Willison · 6 д назад

Datasette представляет плагин Apps для пользовательских приложений на HTML

Datasette выпустил новый плагин datasette-apps, который позволяет запускать автономные приложения на HTML+JavaScript в защищённой веб-рамке. Такие приложения могут выполнять только чтение или запись SQL-запросов к базам данных Datasette, при этом встроенные механизмы безопасности, такие как заголовки CSP и ограничения виртуальной среды, предотвращают утечку данных или незаконный доступ.

media r/LocalLLaMA · 6 д назад

North Mini Code: 4-битная квантование, поддержка Ollama и OpenRouter

Cohere Labs выпустил версию North Mini Code с квантованием на 4 бита на Hugging Face, что сократило её размер до примерно 20 ГБ для локальной работы на устройствах, таких как Mac. Модель теперь поддерживается в Ollama, локальных средах выполнения на базе llama.cpp, и через API OpenRouter, что улучшает доступность для разработчиков.

github llama.cpp · 6 д назад

llama.cpp Release b9703: Обновления и бинарные загрузки

Версия llama.cpp b9703 включает переработку обработки предустановок сервера, удаление поддержки удаленных предустановок HF и устаревших функций. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 6 д назад

mistral.rs v0.8.10 добавляет поддержку /v1/skills для локальных моделей

mistral.rs v0.8.10 вводит открытую совместимую с OpenAI функцию агентов навыков через конечную точку /v1/skills, позволяющую локальным моделям выполнять инструкции и скрипты в определённых областях без зависимости от API frontier. Обновление поддерживает инструменты, такие как загрузка и скачивание файлов через /v1/files, и включает предварительно скомпилированные бинарники для Linux, macOS и Windows.

github CrewAI · 7 д назад

CrewAI v1.14.8a выпустил новые функции FlowDefinition

CrewAI v1.14.8a вводит скрипты и действия команды в FlowDefinition, добавляет поддержку режима DMN и позволяет выполнять потоки без кода на Python. Также включены экспериментальные возможности для команд на основе JSON и отказоустойчивое развертывание через ZIP, а также улучшена работа с памятью и отслеживание использования токенов.

media r/LocalLLaMA · 7 д назад

llama.cpp теперь поддерживает управление моделями через API

llama.cpp был обновлён для поддержки загрузки и управления моделями через API. Это позволяет осуществлять полный контроль над жизненным циклом моделей через вызовы API без необходимости использования пользовательского интерфейса.

github llama.cpp · 7 д назад

Бэкенд Metal добавляет поддержку f16 и bf16 для оператора concat

Бэкенд Metal в llama.cpp был расширен для поддержки типов тензоров f16 и bf16 для оператора concat, в дополнение к существующей поддержке f32 и i32. Обновление включает специализированные шаблоны ядер, обновленные получатели трубопровода и улучшенную диспетчеризацию ядер по типам, с участием pi:llama.cpp/Qwen3.6-27B.

github llama.cpp · 7 д назад

llama.cpp выпускает версию b9688 с новыми API и бинарниками для разных платформ

llama.cpp выпускает версию b9688, добавляя API для управления моделями и в реальном времени обновлений SSE. В релизе включены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и ускорения, такие как Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 7 д назад

Кто-то еще не может найти веб-интерфейс в последней версии llama.cpp b9680?

Пользователи сообщают, что веб-интерфейс отсутствует в последней версии llama.cpp b9680, в то время как версия b9664 работает корректно. Эта проблема была отмечена в Issue на GitHub и подтверждена при использовании Docker.