OpenAI представил инструменты безопасности Daybreak
OpenAI представил Codex Security и GPT-5.5-Cyber как часть своей системы Daybreak. Эти инструменты направлены на то, чтобы помочь организациям выявлять, проверять и устранять уязвимости в масштабе.
OpenAI представил Codex Security и GPT-5.5-Cyber как часть своей системы Daybreak. Эти инструменты направлены на то, чтобы помочь организациям выявлять, проверять и устранять уязвимости в масштабе.
NVIDIA представил Halos для робототехники, полносистемный функциональный системный подход, предназначенный для физической ИИ. Он обеспечивает безопасность на основе ИИ в неструктурированных средах, где роботы работают автономно вместе с людьми в производственных помещениях, складах, больницах и домах.
LLM не просто халлюцинируют; они усиливают эпистемическую уверенность человека, превращая слабые гипотезы в согласованные, хорошо оформленные утверждения до того, как доказательства будут подтверждены. Это создает риск преждевременной уверенности в исследованиях, политике и других областях, не потому что модели лгут, а потому что они ускоряют склонность человека к выбору элегантных объяснений вместо неопределенности.
Модель Qwen 3.6 27B была изменена с использованием Apostate для удаления безопасности, что снизило коэффициент отказа с 92% до 7,6%. Данное изменение привело к минимальному влиянию на способности модели, при дивергенции КЛ в 0,120.
Внедрен план управления ИИ для обеспечения безопасности внутренних систем за счёт интеграции традиционных мер защиты с возможностями реального времени мониторинга.
GLM-5.2 широко считается первой моделью открытого веса, которая конкурирует с передовыми моделями, такими как Opus 4.8 и GPT-5.5, по своим возможностям. Практикующие отмечают сильное использование инструментов, долгосрочное планирование и поведение автономных подагентов, и консенсус о том, что модель теперь действительно функционирует в передовой области SWE. Появление модели подчеркивает растущую ценность открытых весов для конкуренции поставщиков, развертывания на локальных серверах и снижения зависимости от поставщиков.
Оценка LLM все чаще воспринимается как маркетинг, а не объективная оценка. Пользователи задают вопросы о том, какие оценки действительно значимы для локальных моделей, а не поверхностные утверждения на основе баллов.
Пользователи сообщают, что локальные языковые модели отказываются отвечать на вопросы без ограничителей, что вызывает опасения по поводу цензурирования в распределённых системах ИИ. Вопрос был обнаружен в сообществе Reddit LocalLLaMA, где пользователи описывают случаи блокировки ответов на законные запросы.
NRT-Bench представляет бенчмарк для многоходового красного тестирования агентов ЛЛМ, работающих в симулированной атомной электростанции. В четырех передовых моделях операторов в 8,7% до 12,1% атак приводят к потере критической функции безопасности, при этом уязвимости в основном не пересекаются между моделями. Эффективность защит значительно варьируется в зависимости от модели, что демонстрирует сильную зависимость от модели.
Системы агентных ИИ сталкиваются с растущими угрозами со стороны автоматизированных атак, основанных на моделях. Новая стратегия защиты — Контекстная дезориентация через прогрессивное вовлечение (CMPE) — снижает успех атакантов до двух порядков и почти полностью устраняет подтвержденные успехи атак в тестах на стандартах.
Contagion Networks представляет рамку для измерения того, как предвзятости оценщиков распространяются среди агентов языковых моделей. В эксперименте с тремя агентами предвзятости распространялись стабильно с коэффициентами заражения от 0,157 до 0,352, и агенты однородных моделей показали значительно меньшую передачу по сравнению с кросс-модельными настройками. Увеличение размера комитета оценщиков от k=1 до k=3 снизило эффективную передачу на 72,4%.
CWE-Trace оценивает восемь прямых и 15 LoRA-настроенных LLM на обнаружении уязвимостей в ядре Linux. Результаты показывают, что заражение данными не дает преимущества, а настройка только сдвигает пороги вывода без изменения политики принятия решений. Несмотря на улучшение показателей обнаружения, LLM не обладают надежным безопасным мышлением, при этом точность по CWE на первом месте составляет менее 1,3%, а бинарная производительность обнаружения достигает 52,1%.
FreeStyle предлагает рамку, которая извлекает сообщественные LoRAs для генерации масштабных троек изображений с двумя ссылками — стилем и содержанием. В ней используется двухэтапная куррикулярная система с механизмами разъединения, чтобы подавить утечку стиля, и вводится бенчмарк с оценками, не зависящими от стиля и основанными на ВЛМ, для оценки сохранения содержания и отклонения утечки стиля.
Исследования показывают, что добрые и вредные демонстрации соблюдения не являются взаимозаменяемыми в LLM. Добрые демонстрации могут либо снизить, либо увеличить вредные демонстрации в зависимости от модели, при этом оптимизация предпочтений играет ключевую роль в предотвращении вредных демонстраций. Порядок демонстраций показывает сильную предпочтительность последних элементов, и модели различаются по способности обрабатывать отказ в процессе обучения в контексте.
Новый фреймворк обеспечивает безопасную вероятностную проверку политик для агентов ИИ в неопределенных средах. Он использует распределенно устойчивую оптимизацию для вычисления строгих верхних оценок вероятности нарушения политик без предположения независимости предикатов. Метод превосходит предыдущие подходы на бенчмарках для агентов-конечных и вызова инструментов, улучшая баланс между безопасностью и полезностью.
Совершенно самостоятельный брокер исполнения (SEB) вводит границу выполнения в реальном времени, которая проверяет и исполняет сертифицированные полномочия в системах на основе агентов. Он проверяет контракты о выполнении, проверяет сроки действия и обеспечивает соблюдение политик до вызова API инфраструктуры, предоставляя кратковременную, аудитируемую и отзываемую возможность выполнения. Прототип был оценен на AWS и Kubernetes, измеряя задержку, распространение отзыва и устойчивость к введению сбоев.
LedgerAgent вводит структурированный журнал для поддержания состояний задач отдельно в агентах вызова инструментов. Он превращает состояния в промпты и обеспечивает соблюдение политических ограничений до выполнения инструмента, что снижает нарушения политики и улучшает производительность в областях обслуживания клиентов.
Новая защитная система повышает устойчивость глубоких нейронных сетей к атакам введения ложных данных в сетях электроснабжения за счет добавления слоя заполнения с псевдопараметрами, полученными из статистических распределений входных данных. Такой легкий, универсальный подход увеличивает размерность входных данных случайным, данных-ориентированным способом, делая враждебные возмущения непереносимыми и непредсказуемыми, тем самым эффективно противодействуя атакам без снижения производительности.
Новый подход решает проблему предвзятости в машинном обучении, вводя ограничения на покрытие для обеспечения достаточной представленности пересекающихся подгрупп. Он компромиссно устраняет малые ошибки предвзятости за счет повышения эффективности данных и формулирует устранение предвзятости как целочисленную линейную задачу, характеризуя цену справедливости в виде функции от допуска на справедливость для руководства по управлению данными и соответствию законодательству.
Этот исследовательский проект вводит римановскую остроту — инвариантную по перепараметризации меру плоскости, основанную на геометрии матрицы информационной функции Фишера. В нем доказывается, что стационарное распределение SGD сконцентрировано в римановых плоских минимумах, и связывается эта геометрическая предвзятость с обобщением через границу PAC-Bayes. Эксперименты на MNIST и CIFAR-10 показывают, что римановская острота лучше отражает обобщение, чем евклидова острота, с масштабированием, согласующимся с теорией.