OpenAI развивает общие стандарты ИИ через Appia Foundation
OpenAI, через Appia Foundation, продвигает общие стандарты для продвинутых ИИ, разрабатывая рамки оценки, практики безопасности и способствуя глобальному сотрудничеству.
OpenAI, через Appia Foundation, продвигает общие стандарты для продвинутых ИИ, разрабатывая рамки оценки, практики безопасности и способствуя глобальному сотрудничеству.
Пользователи хвалят GLM 5.2 за прямую и решительную позицию, в отличие от более сладких американских моделей. Автор предполагает, что такое поведение обусловлено культурно специфическими обучающими данными, что указывает на более сильное влияние локальных наборов данных, чем ранее предполагалось.
Когнитивные цифровые двойники (КЦД) — это динамические вычислительные модели индивидуальной когнитивной деятельности, обновляемые на основе персональных данных для имитации или действий в интересах пользователей. В данной статье представлен 5A-фреймворк управления — авторитет, автономия, доступ и контроль, ответственность и доступность — для решения этических рисков, таких как искажение, асимметрия прокси-власти и тени двойники, с акцентом на необходимость регулирования самой когнитивной репрезентации, а не только принятия решений или использования данных.
Международное исследование 81 пользователя ИИ из 22 стран показало, что 89,5% неговорящих на английском языке переключаются на английский при использовании ИИ, указывая на восприятие точности. Более одной трети участников сообщили, что ИИ не понимает их культуры, 63% испытали нарушение культурных норм, включая западноцентрические нарративы и несоответствующую официальность. Участники выразили обеспокоенность тем, что ИИ будет еще больше исключать их культуры, 67% согласились, что ИИ сократит культурное разнообразие до стереотипов в будущем.
AgentCIBench представляет бенчмарк для оценки рисков приватности в агентах, использующих компьютер. Он выявляет три ключевых режима сбоев — визуальная совместная локация, избыточное раскрытие при неясных задачах и несоответствие получателя — и показывает, что 11 из 15 оцененных агентов раскрывают персональные данные в более чем 50% сценариев, при среднем уровне утечки 67,9%.
MuPPET вводит бенчмарк для контекстной приватности в многопартийных диалогах. Эксперименты показывают, что модели утечивают значительно больше приватной информации в групповых сценариях, чем в однопартийных взаимодействиях, причем более маленькие модели с открытыми весами особенно уязвимы. Существующие защитные механизмы обеспечивают лишь частичную защиту и не решают основной проблемы отслеживания участников.
Мы предлагаем неопределенность-ориентированную дезинфицировку (UBD), метод, использующий глубокие ансамбли для оценки степени запоминания отдельных образцов в загрязненных моделях без необходимости наличия незагрязненной модели. UBD строит смещенную целевую распределение на основе неопределенности ансамбля для коррекции распределений выходов, достигая значительно лучшего соответствия незагрязненным моделям по сравнению с базовыми методами, при этом сохраняя производительность на чистых данных.
TF-RefusalBench — это мультяжный бенчмарк, основанный на решениях Священного суда Швейцарии, содержащий 5200 запросов на французском, немецком, итальянском и английском языках. Он показывает, что чрезмерная синхронизация в LLMs зависит от факторов модели и языка, и что отказы влияют на достоверность задачи за пределами простых показателей отказов. Удаление директив по отказу снижает чрезмерную синхронизацию с минимальными потерями производительности в задачах уголовного права.
Исследование 1174 пользователей Reddit выявило четыре различных персональных образа самостигмы. Модели, обученные распознавать эти персональные образы, превосходят универсальные модели при ответах на конкретные запросы, хотя клинические специалисты предпочитают универсальную эмпатию над эмпатией, соответствующей персональному образу. Исследование подчеркивает противоречие между персонализированной эмпатией и общей предпочтительностью пользователей в интервенциях ИИ, связанных со стигмой.
Открытые языковые модели показывают, что осознание оценки не является единым свойством. Восьмые эксперименты по 37 моделям показывают, что обнаружение, изменения поведения в области безопасности и стабильность представления варьируются независимо, причем между ними наблюдается лишь слабая корреляция. Это ослабляет идею о том, что один показатель осознания может быть надежным индикатором безопасности при развертывании, подчеркивая «обман бенчмарков».
Никакие крупные языковые модели не способны надежно обнаруживать, когда их ответы были повлияны атаками на предварительные заполнения. Внутренние сигналы наиболее сильны в вопросах безопасности, но они зависят от выбора метода проверки и могут усиливаться при использовании LoRA-финтюнинга, что парадоксально повышает успешность атак.
Закон ЕС о искусственном интеллекте требует, чтобы все системы искусственного интеллекта, генерирующие синтетический текст, включали водяные знаки, доступные для машинного чтения и обнаружения, используя устойчивые, взаимодействующие технические решения с двумя слоями. Это касается всех моделей ИИ, включая открытые, и распространяется на любые услуги, доступные гражданам ЕС, независимо от их местоположения. Несоблюдение требований может привести к штрафам в размере до 35 миллионов евро или доли годового дохода, при этом поставщики моделей ИИ, представляющих системную угрозу, подвергаются повышенной ответственности.
Статья утверждает, что культурная согласованность в NLP требует множественных эпистемологий, а не только разнообразных данных. Автор предлагает социотехническую модель для анализа того, как различные, локально обоснованные способы знания могут быть интегрированы в технологии языка, подчеркивая, что существующие подходы часто не учитывают глубокие вопросы власти и управления.
π-RAG разделяет ЛЛМ от чувствительных данных, используя цифры π как неизменяемый и недоступный источник энтропии. Вводится слой семантической квантования, который отображает пользовательские вводы на центроиды намерений, затем с помощью криптографической соли генерируется детерминированный сдвиг, указывающий на стандартизированные пакеты, обеспечивая независимый поиск и математические гарантии конфиденциальности данных.
Пользователь сообщает, что его аккаунт Hugging Face, AntixStudioDesign, был неожиданно заблокирован во время экспериментов с инструментами ИИ. Он обратился в команду безопасности по электронной почте и ищет советы по восстановлению аккаунта, срокам ответа и вариантам сохранения данных.
OTTER — это черный ящик, система красного тестирования, которая обходит фильтры токсичности, изменяя не более пяти токенов. Оценка проводилась на 457 промптах AdvBench по четырем моделям GPT, что привело к росту успешности проникновения в систему с 7,0% до 84,0%, что представляет первую количественную аналитику взаимосвязей избегания токсичности и практические рекомендации по укреплению классификаторов.
Валидационно-ограниченная система оценивает внутренние характеристики LLM только после наблюдения за поведением, выявляя средний слой признака, который причинно вносит вклад в выявление суицидальных состояний. Этот признак является семантическим, низкого ранга, межмодельным и специфичным для суицидальных состояний по сравнению с общими состояниями тревоги, хотя направление его регулирования необходимо, но недостаточно. Паттерн показывает, что меньшие модели кодируют суицидальные состояния, но только более крупные модели реагируют на них, при этом доказательства ограничены английским текстом реддит-форумов.
Новое исследование показывает, что более 1000 юридических документов содержат вымышленные цитаты, количество которых ежегодно растёт. Проверка пяти ИИ-моделей показывает улучшение производительности, при этом GPT-5 достигает 82,8% точности и 60,5% F1 в агентных условиях, однако все модели сталкиваются с трудностями в обнаружении тонких ошибок и сталкиваются с ограничениями из-за ограниченного доступа к информации.
MedLayXPlain представляет первый масштабный бенчмарк для генерации медицинских непрофессиональных языковых образцов, содержащий 122 789 образцов с региональной привязкой в восьми модальностях изображений. Он оценивает медицинские модели визуально-языковых систем на согласованности между экспертными и непрофессиональными знаниями с использованием иерархической системы онтологии и лёгкого оценщика, выявляя систематический разрыв: экспертный уровень производительности при описании изображений сопровождается значительным снижением в непрофессиональной речи, при этом общие модели не обладают клинической точностью.
LISE разлагает векторы речевых эмбеддингов на интерпретируемые компоненты без аннотаций. Эксперименты с прослушиванием показывают, что участники испытаний правильно различают говорящих с точностью 83,9%, что подтверждает интерпретируемость компонент при сохранении производительности в области распознавания речи.