Как оценивать LLM перед её развёртыванием в production?
Эта ветка обсуждения на Hugging Face рассматривает методы и аспекты тестирования больших языковых моделей, чтобы убедиться в их пригодности для реальных приложений.
Эта ветка обсуждения на Hugging Face рассматривает методы и аспекты тестирования больших языковых моделей, чтобы убедиться в их пригодности для реальных приложений.
Пользователь на форуме Hugging Face сообщает, что его статья из arXiv «Agent-as-a-Router: Agentic Model Routing for Coding Tasks» была успешно проиндексирована и подтверждена автором, но так и не появилась на главной странице раздела Daily Papers. Несмотря на получение голосов поддержки от сообщества и привязку соответствующего набора данных, статья не была опубликована в течение нескольких дней.
Библиотека MCP Python SDK (Model Context Protocol) выпустила третью альфа-версию, v2.0.0a3, внося значительные изменения в протокол и архитектуру, сохраняя при этом обратную совместимость для пользователей стабильной ветки 1.x.
Проект llama.cpp выпустил версию b9811, которая включает исправление ошибки компилятора, влияющей на путь conv2d coopmat2 в Vulkan. Этот обходной путь также применён к реализации CONV_3D на основе рекомендаций инженера NVIDIA Джеффа Болца.
Проект llama.cpp выпустил версию b9810, внедряющую отображение CUDA для `cublasSgemmBatched` в заголовках вендоров HIP/MUSA. Это обновление сопровождается комплексным набором предварительно собранных бинарных файлов для платформ macOS, Linux, Windows, Android и openEuler.
Python SDK для Model Context Protocol выпустил версию 1.28.1, внося обновления в обработку потоков и безопасность транспорта.
Pendo проводит очный набор Staff и Senior AI-инженеров в Нью-Йорке для работы над Novus — продуктовым агентом производственного уровня, способным автономно читать живые кодовые базы и выявлять реальные проблемы пользователей.
В этой статье представлен учебник по использованию eBPF с Go для достижения наблюдаемости на уровне ядра, что решает проблему отсутствия видимости при отладке проблем в сервисах, сгенерированных ИИ.
Выпуск llama.cpp b9804 вносит исправление для архитектуры Mamba2, удаляя жёстко заданный коэффициент расширения 2x и некорректную проверку параметров, что позволяет поддерживать любое значение expand. Это изменение обновляет скрипт `convert_hf_to_gguf.py`, делая параметр expand необязательным со значением по умолчанию 2.
JoeBro — это локальное приложение для macOS, разработанное с упором на первичность локального использования, предназначенное для предоставления рабочего пространства для ИИ без необходимости установки внешних зависимостей, таких как pip или Docker. Оно включает встроенный бэкенд на Python и хранилище SQLite, чтобы гарантировать сохранение всех данных на устройстве пользователя, исключая необходимость в телеметрии и учётных записях.
Предоставленный исходный контент указывает на то, что тема первоначального поста была удалена автором. Следовательно, в этом отрывке отсутствует какая-либо конкретная информация о процессе добавления пользователей в датасет или базу данных Hugging Face.
Выпуск crewAI 1.15.0 вносит значительные улучшения в определения Flow, включая унифицированную декларативную загрузку, поддержку встроенных crew и новые составные действия, такие как `each` и действия для одного агента.
Платформа AutoGPT выпустила версию 0.6.65, внесшую значительные обновления в систему Copilot, навигацию пользовательского интерфейса и надежность инфраструктуры.
Проект llama.cpp выпустил версию b9803, которая включает исправление для OpenCL, обеспечивающее сброс пакетов профилирования при завершении работы для незавершённых пакетов. Это обновление предоставляет бинарные файлы для macOS, Linux, Windows, Android и openEuler для различных аппаратных бэкендов.
Проект llama.cpp опубликовал выпуск b9802, предлагающий предварительно собранные бинарные файлы для нескольких операционных систем и аппаратных архитектур. Это обновление включает поддержку процессоров (CPU), графических процессоров (GPU) и специализированных ускорителей ИИ на таких платформах, как macOS, Linux, Windows, Android и openEuler.
В статье анонсируется выпуск версии 0.5.14.
Версия Claude Code 2.1.193 вносит ряд улучшений в классификацию авто-режима, журналирование телеметрии и управление фоновыми агентами. Это обновление также включает исправления проблем с состоянием пользовательского интерфейса, обработкой аутентификации в серверах MCP и различных ошибок фоновых процессов.
В этой статье описывается метод автоматизации поддержки форков программного обеспечения с использованием AI-агентов для написания кода, применённый к форку Cohere проекта vLLM. Подход сокращает время, необходимое для интеграции обновлений из основного репозитория (upstream), с недель до дней за счёт замены ручного вмешательства автоматизированным циклом обратной связи.
В этом релизе предпринята попытка исправить сборку Flatpak.
Исследователи разработали Generative Causal Testing (GCT) — фреймворк, который переводит неинтерпретируемые модели предсказания активности мозга на основе LLM в краткие, проверяемые вербальные гипотезы о функциях коры. Этот метод сжимает параметры модели в короткие фразы, описывающие, на какие стимулы реагируют определенные области мозга, например «приготовление пищи», а затем проверяет эти объяснения с помощью целевых фМРТ-экспериментов.