OpenAI представил инструменты безопасности Daybreak
OpenAI представил Codex Security и GPT-5.5-Cyber как часть своей системы Daybreak. Эти инструменты направлены на то, чтобы помочь организациям выявлять, проверять и устранять уязвимости в масштабе.
OpenAI представил Codex Security и GPT-5.5-Cyber как часть своей системы Daybreak. Эти инструменты направлены на то, чтобы помочь организациям выявлять, проверять и устранять уязвимости в масштабе.
Jason Liu демонстрирует, как Codex помогает сохранять контекст и управлять сложными проектами, обеспечивая бесперебойное продолжение работы за пределами одного запроса.
Компания Samsung Electronics внедрила в свою глобальную команду Enterprise-версию ChatGPT от OpenAI и Codex. Такое внедрение является одним из крупнейших предприятий по внедрению искусственного интеллекта от OpenAI на сегодняшний день.
GPT-5.5 Instant улучшает ответы ChatGPT по вопросам здоровья и благополучия за счёт более сильного мышления, лучшего обработки контекста, более чёткой коммуникации и медицинских оценок.
v2.1.183 повышает безопасность режима автоматического выполнения, блокируя разрушительные команды git и destroy без явного согласия пользователя. В версии добавлены предупреждения о устаревании для моделей, введена атрибут attribution.sessionUrl для скрытия ссылок на сессии, а также исправлены несколько проблем, включая поведение терминала, производительность подагентов и обработку ввода в веб- и tmux-средах.
Релиз autogpt-platform-beta-v0.6.64, датированной 18 июня 2026 года, вводит новые функции, такие как панель AutoPilot и глобальный поиск, а также улучшения в сохранении графов, кэшировании и производительности конструктора. В нём также содержатся меры по усилению безопасности, устранение ошибок в работе поставщиков LLM и улучшения интерфейса, включая высокоразрешающую иконку для сенсорного управления.
Claude Code v2.1.181 вводит поддержку настройки параметров конфигурации через синтаксис промпта, например /config thinking=false, добавляет поддержку событий Apple в среде macOS и улучшает поведение потокового вывода, автоматического повтора и подагентов. Также исправлены множество ошибок, связанных с запуском, обработкой файлов, копированием и отзывчивостью интерфейса на разных платформах.
Claude v2.1.178 вводит новые правила разрешений с использованием синтаксиса Tool(param:value), улучшает загрузку рабочих процессов и навыков в вложенных директориях, а также улучшает режим автоматического выполнения и сообщения об ошибках. В выпуске исправлены критические проблемы, включая сбои, ошибки аутентификации и поведение интерфейса в Chrome и VSCode, при этом улучшены запросы на инструменты и функция отмены действий.
Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.
LLaMA.cpp версия b9739 добавляет поддержку Windows ARM64 с использованием OpenCL Adreno. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, CUDA, OpenVINO и SYCL.
Индексатор DSA для модели GLM-5.2 неправильно загружался на всех слоях, что приводило к сбоям из-за отсутствия тензоров. В обновлении тензоры индексатора помечаются как TENSOR_NOT_REQUIRED, что позволяет слоям без индексатора загружать как nullptr, обеспечивая полную работу внимания MLA. Модель DeepSeek-V3.2, имеющая единое индексирование, не затронута.
Anthropic выпустил Claude Fable 5, модель класса Mythos, утверждающую достижение передовых результатов в области программирования, научных исследований и работы с знаниями. Модель была быстро удалена американским правительством после сообщения о проникновении в систему, хотя Anthropic утверждает, что она теперь снова доступна, и Fable 5 демонстрирует исключительные возможности и более продуманный, осознанный стиль рассуждения по сравнению с предыдущими моделями.
llama.cpp version b9718 consolidates slot selection into a single function, get_available_slot, while maintaining LCP similarity checks for prompt cache updates. The release includes binary builds for macOS, Linux, Android, Windows, and openEuler across multiple architectures and hardware acceleration options.
Версия LLaMA.cpp b9715 вводит поддержку CUDA для GGML_OP_COL2IM_1D, основанную на реализации на процессоре. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и ускорениях, включая Vulkan, ROCm, OpenVINO и SYCL.
Новый метод, называемый probe-and-refine tuning, использует синтетические пробы исправления ошибок для итеративного улучшения файлов руководства репозитория с помощью одноразовых вызовов LLM, без циклов агентов или использования инструментов. На SWE-bench Verified он достигает среднего коэффициента разрешения 33,0% — на 14,5 процентных пункта выше начального статического базового знания — что свидетельствует о расширении охвата, а не точности исправлений. Метод позволяет агентам эффективно использовать большие бюджеты шагов, и производительность остается стабильной при различных моделях, при наличии достаточного диагностического вывода.
SoftSkill предлагает метод сжатия естественных языковых навыков в компактные скрытые предпосылки, что улучшает выполнение задач на SearchQA, LiveMath и DocVQA. Метод превосходит SkillOpt на 5,2–12,5 баллов по ключевым метрикам, при этом заменяя сотни или тысячи токенов Markdown на несколько виртуальных токенов.
AutoPass использует доказательства из работы в реальном времени и компилятора для направления решений по оптимизации, генерируемых ЛЛМ, и превосходит экспертные эвристики и классические методы автоматической настройки. Он достигает геометрических средних ускорений в 1,043 раза на системах x86-64 и в 1,117 раза на системах ARM64 без предварительного обучения или тонкой настройки.
Оценки с использованием проверок фиксированной формы пропускают реальные ошибки в ядрах GPU, генерируемых LLM. Контролируемый корпус из 24 ядер, включающий 9 вариантов с ошибками транскрипции, показывает, что оракул, учитывающий схему операций, обнаруживает все сбои и проходит все корректные проверки, с одинаковыми результатами на пяти архитектурах GPU.
AgentFinVQA представляет многоагентную систему для вопросов по финансовым графикам, обеспечивающую аудитируемость и возможность развертывания на локальной инфраструктуре без значительного снижения точности. Она превосходит базовые модели на +7,68 pp при использовании проприетарного ядра и на +4,84 pp с открытыми весами Qwen3.6-27B-FP8, при этом обеспечивая сигнал уверенности через вывод верификатора, что улучшает маршрутизацию ручного обзора.
JAMER вводит JamSet и JamBench, первый датасет и бенчмарк проектного уровня кода для профессиональной игровой платформы. Созданный на основе 8133 проверенных проектов Game Jam, он обеспечивает детерминированную оценку и выявляет порог способности в моделях ИИ при увеличении масштаба проекта, при этом процент успешных запусков снижается с 80,4% до 5,7%.