OpenAI развивает общие стандарты ИИ через Appia Foundation
OpenAI, через Appia Foundation, продвигает общие стандарты для продвинутых ИИ, разрабатывая рамки оценки, практики безопасности и способствуя глобальному сотрудничеству.
OpenAI, через Appia Foundation, продвигает общие стандарты для продвинутых ИИ, разрабатывая рамки оценки, практики безопасности и способствуя глобальному сотрудничеству.
Международное исследование 81 пользователя ИИ из 22 стран показало, что 89,5% неговорящих на английском языке переключаются на английский при использовании ИИ, указывая на восприятие точности. Более одной трети участников сообщили, что ИИ не понимает их культуры, 63% испытали нарушение культурных норм, включая западноцентрические нарративы и несоответствующую официальность. Участники выразили обеспокоенность тем, что ИИ будет еще больше исключать их культуры, 67% согласились, что ИИ сократит культурное разнообразие до стереотипов в будущем.
OpenAI представил Codex Security и GPT-5.5-Cyber как часть своей системы Daybreak. Эти инструменты направлены на то, чтобы помочь организациям выявлять, проверять и устранять уязвимости в масштабе.
Внедрен план управления ИИ для обеспечения безопасности внутренних систем за счёт интеграции традиционных мер защиты с возможностями реального времени мониторинга.
v2.1.183 повышает безопасность режима автоматического выполнения, блокируя разрушительные команды git и destroy без явного согласия пользователя. В версии добавлены предупреждения о устаревании для моделей, введена атрибут attribution.sessionUrl для скрытия ссылок на сессии, а также исправлены несколько проблем, включая поведение терминала, производительность подагентов и обработку ввода в веб- и tmux-средах.
Закон ЕС о искусственном интеллекте требует, чтобы все системы искусственного интеллекта, генерирующие синтетический текст, включали водяные знаки, доступные для машинного чтения и обнаружения, используя устойчивые, взаимодействующие технические решения с двумя слоями. Это касается всех моделей ИИ, включая открытые, и распространяется на любые услуги, доступные гражданам ЕС, независимо от их местоположения. Несоблюдение требований может привести к штрафам в размере до 35 миллионов евро или доли годового дохода, при этом поставщики моделей ИИ, представляющих системную угрозу, подвергаются повышенной ответственности.
Новое исследование показывает, что более 1000 юридических документов содержат вымышленные цитаты, количество которых ежегодно растёт. Проверка пяти ИИ-моделей показывает улучшение производительности, при этом GPT-5 достигает 82,8% точности и 60,5% F1 в агентных условиях, однако все модели сталкиваются с трудностями в обнаружении тонких ошибок и сталкиваются с ограничениями из-за ограниченного доступа к информации.
LLM не просто халлюцинируют; они усиливают эпистемическую уверенность человека, превращая слабые гипотезы в согласованные, хорошо оформленные утверждения до того, как доказательства будут подтверждены. Это создает риск преждевременной уверенности в исследованиях, политике и других областях, не потому что модели лгут, а потому что они ускоряют склонность человека к выбору элегантных объяснений вместо неопределенности.
NRT-Bench представляет бенчмарк для многоходового красного тестирования агентов ЛЛМ, работающих в симулированной атомной электростанции. В четырех передовых моделях операторов в 8,7% до 12,1% атак приводят к потере критической функции безопасности, при этом уязвимости в основном не пересекаются между моделями. Эффективность защит значительно варьируется в зависимости от модели, что демонстрирует сильную зависимость от модели.
Системы агентных ИИ сталкиваются с растущими угрозами со стороны автоматизированных атак, основанных на моделях. Новая стратегия защиты — Контекстная дезориентация через прогрессивное вовлечение (CMPE) — снижает успех атакантов до двух порядков и почти полностью устраняет подтвержденные успехи атак в тестах на стандартах.
Contagion Networks представляет рамку для измерения того, как предвзятости оценщиков распространяются среди агентов языковых моделей. В эксперименте с тремя агентами предвзятости распространялись стабильно с коэффициентами заражения от 0,157 до 0,352, и агенты однородных моделей показали значительно меньшую передачу по сравнению с кросс-модельными настройками. Увеличение размера комитета оценщиков от k=1 до k=3 снизило эффективную передачу на 72,4%.
CWE-Trace оценивает восемь прямых и 15 LoRA-настроенных LLM на обнаружении уязвимостей в ядре Linux. Результаты показывают, что заражение данными не дает преимущества, а настройка только сдвигает пороги вывода без изменения политики принятия решений. Несмотря на улучшение показателей обнаружения, LLM не обладают надежным безопасным мышлением, при этом точность по CWE на первом месте составляет менее 1,3%, а бинарная производительность обнаружения достигает 52,1%.
Новый фреймворк обеспечивает безопасную вероятностную проверку политик для агентов ИИ в неопределенных средах. Он использует распределенно устойчивую оптимизацию для вычисления строгих верхних оценок вероятности нарушения политик без предположения независимости предикатов. Метод превосходит предыдущие подходы на бенчмарках для агентов-конечных и вызова инструментов, улучшая баланс между безопасностью и полезностью.
LedgerAgent вводит структурированный журнал для поддержания состояний задач отдельно в агентах вызова инструментов. Он превращает состояния в промпты и обеспечивает соблюдение политических ограничений до выполнения инструмента, что снижает нарушения политики и улучшает производительность в областях обслуживания клиентов.
Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.
Contagion Networks представляет рамку для измерения того, как предвзятости оценщиков распространяются среди агентов языковых моделей. В эксперименте с тремя агентами предвзятости распространяются с коэффициентами от 0,157 до 0,352, и агенты однородных моделей демонстрируют значительно меньшую передачу по сравнению с кросс-модельными конфигурациями. Увеличение размера комитета оценщиков от k=1 до k=3 снижает эффективную передачу на 72,4%.
Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.
LedgerAgent вводит структурированный журнал для поддержания состояний задач отдельно в агентах вызова инструментов. Он превращает эти состояния в промпты и обеспечивает соблюдение политических ограничений до выполнения инструмента, что снижает нарушения политики и улучшает производительность в областях обслуживания клиентов.
MACR представляет многоагентную систему рассуждений для разрешения конфликтов знаний в инференсе LLM путем совместной оценки внутренних и внешних знаний. Используя семантическую энтропию для измерения уверенности, MACR применяет три специализированных агента для индукции правил, обнаружения конфликтов и разрешения несоответствий между контекстами. Эмпирические результаты показывают, что MACR превосходит методы, являющиеся самыми передовыми, и обеспечивает интерпретируемые решения конфликтов.
CRAX вводит высокоточный ускоренный бенчмарк безопасности для обучения с усилением с использованием MuJoCo XLA. Он достигает ускорения до 100 раз по сравнению с бенчмарками на процессоре за счёт векторизации и ускорения аппаратными средствами, включая шесть наборов сред и три задачи для агентов на трёх уровнях сложности. Оценка шести методов безопасного обучения с усилением показывает, что ни один подход не доминирует, что подчёркивает компромиссы между производительностью и безопасностью, при этом куррикулярное обучение и передача безопасности улучшают результаты.