Результаты
Сортировка
Сбросить
github AutoGPT · 8 д назад

Релиз autogpt-platform-beta-v0.6.64

Релиз autogpt-platform-beta-v0.6.64, датированной 18 июня 2026 года, вводит новые функции, такие как панель AutoPilot и глобальный поиск, а также улучшения в сохранении графов, кэшировании и производительности конструктора. В нём также содержатся меры по усилению безопасности, устранение ошибок в работе поставщиков LLM и улучшения интерфейса, включая высокоразрешающую иконку для сенсорного управления.

lab Claude Code Releases · 8 д назад

Официальные заметки по выпуску Claude Code v2.1.181

Claude Code v2.1.181 вводит поддержку настройки параметров конфигурации через синтаксис промпта, например /config thinking=false, добавляет поддержку событий Apple в среде macOS и улучшает поведение потокового вывода, автоматического повтора и подагентов. Также исправлены множество ошибок, связанных с запуском, обработкой файлов, копированием и отзывчивостью интерфейса на разных платформах.

lab Claude Code Releases · 10 д назад

Примечания по выпуску Claude v2.1.178

Claude v2.1.178 вводит новые правила разрешений с использованием синтаксиса Tool(param:value), улучшает загрузку рабочих процессов и навыков в вложенных директориях, а также улучшает режим автоматического выполнения и сообщения об ошибках. В выпуске исправлены критические проблемы, включая сбои, ошибки аутентификации и поведение интерфейса в Chrome и VSCode, при этом улучшены запросы на инструменты и функция отмены действий.

media r/LocalLLaMA · 7 д назад

GLM-5.2 превосходит GPT-5.5 в оценке AA-Briefcase

Новая оценка агентных задач искусственного анализа, AA-Briefcase, показывает, что GLM-5.2 превосходит GPT-5.5 по производительности. Оценка оценивает выполнение реальных задач и способность к логическому мышлению в сценариях работы с знаниями.

github LangGraph · 7 д назад

langgraph выпускает версию 1.2.6

LangGraph выпускает версию 1.2.6, исправляя регрессию, при которой вложенные подграфы неправильно наследуют checkpoint_ns родительского графа. Обновление также улучшает отмену выполняющихся подграфов при прерывании потока и включает обновление CLI до версии 0.4.30.

github llama.cpp · 8 д назад

llama.cpp Release b9703: Обновления и бинарные загрузки

Версия llama.cpp b9703 включает переработку обработки предустановок сервера, удаление поддержки удаленных предустановок HF и устаревших функций. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 8 д назад

llama.cpp release b9704: fixes invalid grammar handling and adds new binaries

llama.cpp version b9704 теперь возвращает HTTP 400 для недопустимой грамматики вместо тихого игнорирования ограничений. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на разных архитектурах и аппаратных ускорителях, с поддержкой Vulkan, ROCm, OpenVINO, SYCL и CUDA.

media Don't Worry About the Vase · 8 д назад

Белый дом останавливает внедрение ИИ

Белый дом в США остановил внедрение передовых моделей ИИ, включая Claude Fable 5 и Claude Mythos 5, указав на отчёт о 'выходе из системы', при котором ИИ мог определять и исправлять уязвимости в коде. Anthropic работает с администрацией Трампа по устранению проблемы, однако эксперты считают, что проблема фундаментальная — ИИ либо может писать безопасный код, либо не может, что делает исправление невозможным без подрыва его защитных возможностей.

github llama.cpp · 8 д назад

LLaMA.cpp Release b9698 Добавляет поддержку самоподписки и бинарники для нескольких платформ

Версия LLaMA.cpp b9698 позволяет включать самоподписку только при сборке с помощью llama-install.sh. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github CrewAI · 8 д назад

CrewAI v1.14.8a выпустил новые функции FlowDefinition

CrewAI v1.14.8a вводит скрипты и действия команды в FlowDefinition, добавляет поддержку режима DMN и позволяет выполнять потоки без кода на Python. Также включены экспериментальные возможности для команд на основе JSON и отказоустойчивое развертывание через ZIP, а также улучшена работа с памятью и отслеживание использования токенов.

arxiv arXiv cs.LG · 8 д назад

Дискриминатор-ориентированный RL корректирует потоковое соответствие с помощью наград, синхронизированных с данными

Дискриминатор-ориентированный RL (DRL) использует предобученное пространство представлений для обучения дискриминатора, который отделяет реальные данные от образцов, сгенерированных моделью. Его логит используется в качестве награды в RL с регуляризацией КЛ, обеспечивая соответствие выводов модели визуальной и семантической реальности без человеческих предпочтений. DRL улучшает FID и семантическую FD во всех моделях, таких как SiT и JiT, и усиливает границу Парето между предпочтениями и точностью.

arxiv arXiv cs.LG · 8 д назад

МАСТ обеспечивает селективное исключение в процессе принятия решений, вызванного RLVR

МАСТ, механизм-ориентированный метод исключения, достигает целенаправленного забвения процесса принятия решений, вызванного RLVR, с минимальными побочными эффектами. На Qwen2.5-Math-1.5B и Qwen3-1.7B-Base он значительно снижает производительность MATH (45/150 до 37/15-0), при этом сохраняет точность GSM8K на +0.8 пунктов и поддерживает сохранение MATH на -0.5 пунктов. Результаты остаются стабильными при различных семенах, целях и моделях, демонстрируя превосходную стабильность по сравнению с полным исключением параметров.

arxiv arXiv cs.LG · 8 д назад

STARE: Регулирование преимуществ на уровне токенов с использованием сюрприза для стабильности энтропии политики

STARE решает проблему коллапса энтропии политики в методах обучения с усилением на основе GRPO, выявляя критические подмножества токенов с использованием квантилей сюрприза и пересчитывая их преимущества. Он обеспечивает стабильность энтропии политики на разных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.

arxiv arXiv cs.LG · 8 д назад

TxBench-PP: производительность ИИ-агента в преследовании фармакологии

TxBench-PP — это проверяемый бенчмарк для преследования фармакологии маломолекул, проверяющий способность ИИ-агентов делать точные выводы на основе реальных данных о пробах. В 16 конфигурациях моделей-инструментов ни одна система не демонстрировала надежную способность принимать правильные решения в области преследования фармакологии, лучшая производительность составила 59,3% (Claude Opus 4.8 / Pi) и 55,3% (GPT-5.5 / Pi) по попыткам достижения конечных результатов.

arxiv arXiv cs.LG · 8 д назад

OneCanvas: Понимание 3D-сцены через перепроекцию панорамы

OneCanvas обеспечивает понимание 3D-сцены в моделях Вид-Язык путем агрегации признаков патчей на единую панорамную панель с использованием координат 3D-мира. Оно достигает лучших результатов на SQA3D и VSI-Bench, и обобщается на данные вне распределения на SPBench, используя значительно меньшее количество вычислений на обучении по сравнению с существующими методами.

arxiv arXiv cs.LG · 8 д назад

Нулевое влияние на мониторинг выявляет скрытые тренировки машинного обучения

Исследование оценивает классификацию нагрузки на GPU с использованием только мониторинга NVML с нулевым влиянием. Классификатор достигает точности 98,2% при идентификации нагрузок на обучение и точности от 43 до 87% при распознавании неожиданных, враждебно скрытых нагрузок на 9 моделей GPU.

arxiv arXiv cs.LG · 8 д назад

Diffusion-Proof: Первый фреймворк для диффузионных LLM в формальной доказательной математике

Diffusion-Proof — первый фреймворк для обучения и применения диффузионных языковых моделей в формальной доказательной математике. Он вводит dLLM-Prover-7B для написания полных доказательств с долгосрочной согласованностью и dLLM-Corrector-7- для локальной коррекции доказательств с использованием обратной информации. Фреймворк превосходит автокоррекционные базовые LLM на 1,61% на ProofNet-Test и на 6,14% на MiniF2F-Test, и решает задачу IMO за пределами возможностей DeepSeek-Prover-V2-7B.

arxiv arXiv cs.AI · 8 д назад

Пользователь как энгра: локальные параметрические редакции для личной памяти

Пользователь как энгра предлагает хранить факты по каждому пользователю в виде хирургических, хеш-ключевых редакций в таблице памяти, оставляя процесс мышления в общем адаптере. Такой подход обеспечивает на 5,6 раза более высокую точность косвенного мышления и сохраняет базовую производительность мышления, при этом объем памяти на 33 000 раз меньше, чем при использовании LoRA по каждому пользователю. Метод позволяет выполнять раздельные редакции пользователей, которые составляются без потерь, превосходя ретриевные потоки при более чем 100 фактах.

arxiv arXiv cs.AI · 8 д назад

МАСТ обеспечивает селективное исчезновение в процессе принятия решений, вызванных RLVR

МАСТ, метод селективного исчезновения, обеспечивает целенаправленное забвение процесса принятия решений, вызванного RLVR, с минимальными побочными эффектами. На Qwen2.5-Math-1.5B и Qwen3-1.7B-Base он значительно снижает производительность MATH (45/150 до 37/150), сохраняя точность GSM8K на +0.8 пунктов и поддерживая сохранение MATH на -0.5 пунктов. Результаты остаются стабильными при различных семенах, целях и моделях, демонстрируя превосходную стабильность по сравнению с полным исчезновением параметров.