Опубликована версия Open Interpreter 0.0.17
Open Interpreter выпустил версию 0.0.17. Обновление вводит новые функции и улучшения в основных функциях, повышая взаимодействие с пользователем и возможности выполнения задач.
Open Interpreter выпустил версию 0.0.17. Обновление вводит новые функции и улучшения в основных функциях, повышая взаимодействие с пользователем и возможности выполнения задач.
Локальный агент может получить доступ к веб-сайтам без использования платных API, используя саморазвернутый SearXNG для поиска и Scrapling с помощью Trafilatura для извлечения содержимого страниц. Настройка избегает зависимостей от поставщиков, использует открытые инструменты и обеспечивает результаты поиска и содержимое страниц в формате Markdown, с резервными вариантами для CAPTCH и других защитных механизмов.
Пользователь сообщает о медленной генерации токенов при запуске локального агента на видеокарте 4090 с 24 ГБ ОЗУ, несмотря на настройку параметров контекста и батчинга. Он отмечает, что Gemma4 работает быстрее, но генерирует неверные токены, такие как </tool_call>, и ищет рекомендованные настройки и объяснения параметров, таких как top_p и top_k.
SupraLabs представил модель генерации чат-заголовков supra-title-FFT-preview, обученную на 115K образцов из отфильтрованного датасета, расширяя охват по сравнению с предыдущей моделью из 12K образцов. Модель использует полную настройку на LiquidAI/LFM2.5-350M-Base с точностью BF16 и предназначена для генерации заголовков чатов в однозадачном режиме, доступна через Hugging Face и поддерживает прямую загрузку или развертывание с помощью vLLM.
RTX 5090 MSI потребляет 475-500 Вт во время инференса или тренировки диффузии. Пользователь отмечает, что не испытывает проблем с кабелем питания, подчеркивая, что его не следует изгибать для обеспечения безопасной и стабильной работы.
Attention Algebra — это прототип, который переводит естественный язык в алгебраические выражения, отображает их на математические динамики и визуализирует результат в виде спектрограммы. Он рассматривает язык как потерянную проекцию высокомерных состояний, предполагая, что исходные паттерны внимания, сгруппированные в функции, служат «ДНК» текста, позволяя эффективно строить цепочки рассуждений, сокращая количество токенов с 20 тысяч до 4 тысяч.
LLaMA.cpp выпускает версию b9732 с обновлёнными бинарниками для macOS, Linux, Android, Windows и openEuler. В релизе включены переработанные сведения о коммуникации между дочерними процессами и роутером, исправления в обработке пробуждения, улучшения в функции update_status() и документации. Новые сборки поддерживают Vulkan, ROCm, OpenVINO, SYCL и CUDA 12/13 на нескольких архитектурах.
Пользователь проверил заявленную реализацию 'Быстрого C++' Клауде и обнаружил, что она не превосходит стандартный C++ в тестах. В посте приведён ссылка на статью в Substack, в которой подробно описан процесс и результаты тестирования.
Проект ggml-webgpu добавил переключатели адаптера для поддержки полупrecision (F16) на видеокартах Vulkan и NVIDIA. Обновление позволяет повысить производительность на совместимом оборудовании на нескольких платформах, включая macOS, Linux, Android, Windows и openEuler, с конкретными сборками для архитектур ARM и x64.
Настройка, использующая четыре видеокарты 5060 Ti (итого $1800), обеспечивает скорость 55 токенов в секунду при использовании Qwen3.6-27B-FP8, поддерживая длину контекста 262K и кэш KV в формате bfloat16. Конфигурация использует P2P и FlashInfer, при этом результаты тестирования показывают пропускную способность 55,67 токенов на выход и процент принятия спекулятивного декодирования в 65,25%.
Сеан Линч отмечает, что протокол контекста модели (MCP) обеспечивает важное преимущество за счёт изоляции потоков аутентификации за пределы контекстного окна агента. Он предлагает, что идеальная форма MCP может быть простым шлюзом аутентификации для API, что всё равно будет значительным улучшением.
Версия llama.cpp b9731 вводит оптимизацию с использованием std::partial_sort для снижения расходов на сортировку токенов, что позволяет повысить производительность с 8,555 мс до 0,704 мс при выборе токенов top-n. В этом выпуске представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения аппаратного обеспечения.
llama.cpp version b9730 includes fixes for UTF-8 handling on Windows and improvements to ggml_fopen and CLI. The release provides binaries for macOS, Linux, Android, Windows, and openEuler across multiple architectures and hardware acceleration options, including Vulkan, CUDA, OpenVINO, and SYCL.
Обсуждение определяет лучшие локальные ИИ-агенты, доступные сегодня, подчеркивая модели с открытым весом и выполнение на локальной аппаратной части. В посте определяется понятие "агентов" как автономного программного обеспечения, которое самостоятельно принимает решения о действиях без предварительной программы, в отличие от инструментов, таких как IFTTT или Apple Shortcuts, и устанавливаются правила, требующие локальной развертывания и программного обеспечения агентов на открытом источнике как основное внимание.
Версия Rust 0.0.12 была выпущена. Эта ранняя версия относится к начальной фазе разработки языка и включает в себя основные функции языка.
Версия Rust 0.0.13 была выпущена. Эта ранняя версия относится к начальной фазе разработки языка и включает в себя основные функции языка.
Релиз версии Rust 0.0.14. Эта ранняя версия относится к начальной фазе разработки языка и включает в себя основные функции языка.
Пользователь сообщает о проблемах при запуске локального агента AI Hermes на высокопроизводительной системе с использованием самокомпилированной версии llama-cpp. Настройка испытывает частое переработку кэша KV каждые 5 сообщений и медленное мышление, при этом агент постоянно останавливается, чтобы сообщить о прогрессе, вместо того чтобы продолжать работу автономно. Пользователь ищет руководство по тому, правильно ли настроены параметры llama-cpp, или какие настройки могут улучшить производительность агента и обеспечить стабильное мышление без прерываний.
Пользователь сообщает о достижении только 60 токенов в секунду в кратковременных всплесках и средней скорости 40-45 TPS при запуске модели Qwen 3.6 27B с квантованием Q8_0 на двух видеокартах GeForce 3090, соединенных через NVLink. Настройка включает Ubuntu 24.04, Ryzen 7950x3D и 64 ГБ DDR5, с видеовыводом, подключенным через eGPU.
LLaMA.cpp выпускает версию b9729 с бинарниками для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе включены поддержка CPU, Vulkan, OpenVINO, SYCL и ROCm, а также новый пакет интерфейса. Удалены внутренние ссылки на 'webui'.