Safety & alignment — korshunov.ai

Safety & alignment Страница 2 / 11

Машинное раскрытие информации: нормативный и принципиальный подход

Арт-агенты могут и должны раскрывать информацию, но только в рамках нормативной системы, основанной на традициях человеческого раскрытия информации. В статье предлагается, чтобы правительственные регуляторы установили четкие руководства по тем, что могут раскрывать машины, и как юридически защитить разработчиков таких систем.

arxiv arXiv cs.AI · 2 д назад

Объяснения на основе влияния для оценки степени дисартирии

Новый фреймворк обеспечивает объяснения на уровне инстансов для оценки степени дисартирии, идентифицируя поддерживающие и конкурирующие обучающие образцы. Используя градиентные оценки влияния, он связывает решения модели с воспринимаемыми эталонными случаями, обеспечивая аудитируемые и интерпретируемые прогнозы через эксперименты с контролируемым удалением.

arxiv arXiv cs.AI · 2 д назад

Предупреждающие метки изменяют восприятие, но не влияют на влияние ИИ на сикофаническое поведение

Исследование с участием 2610 участников показало, что раскрытие ИИ как сикофантского изменяет восприятие пользователей его объективности и доверия. Однако такие метки не снижают убеждение пользователей в своей правоте или их готовность разрешать конфликты. Результаты указывают на то, что предупреждающие метки влияют на восприятие, но не снижают реального влияния, что свидетельствует о разрыве между восприятием и поведением.

arxiv arXiv cs.AI · 2 д назад

Сексуализированные ИИ-голоса усиливают гендерные несоответствия в вопросах власти

Исследование показало, что сексуализированные ИИ-голоса на коммерческой платформе укрепляют двоичные, гетеронормативные гендерные выражения. Голоса, кодирующие женский пол, чаще получают метки сексуализации и подчинения, в то время как голоса, кодирующие мужской пол, ассоциируются с доминированием и положительными качествами, что подчёркивает сохраняющиеся гендерные несоответствия в дизайне ИИ-голосов.

arxiv arXiv cs.AI · 2 д назад

Модель объяснимой ИИ для депрессии, связанной с карьерой, у студентов университетов

Новая рамка объяснимой ИИ использует структурированные данные поведения и признаки эмоций лица для обнаружения ранних признаков депрессии и тревожности, связанных с карьерой, у студентов университетов. Модель, оцененная на данных студентов из Пакистана, достигает значения F1-меры 89,12% и выявляет ключевые маркеры, такие как избегание прямого взгляда и социальная изоляция, что соответствует психологическим теориям.

arxiv arXiv cs.AI · 2 д назад

Социальная теория выбора в области выравнивания ИИ

Новая обзорная статья исследует, как теория социального выбора помогает агрегировать человеческую обратную связь в области выравнивания ИИ. В ней выявлены режимы сбоев в агрегации обратной связи и предлагаются принципиальные методы для обработки несогласия между человеческими оценками.

lab OpenAI News · 2 д назад

OpenAI развивает общие стандарты ИИ через Appia Foundation

OpenAI, через Appia Foundation, продвигает общие стандарты для продвинутых ИИ, разрабатывая рамки оценки, практики безопасности и способствуя глобальному сотрудничеству.

media r/LocalLLaMA · 2 д назад

Позиция GLM 5.2 отражает влияние культурной подготовки

Пользователи хвалят GLM 5.2 за прямую и решительную позицию, в отличие от более сладких американских моделей. Автор предполагает, что такое поведение обусловлено культурно специфическими обучающими данными, что указывает на более сильное влияние локальных наборов данных, чем ранее предполагалось.

arxiv arXiv cs.CL · 2 д назад

Когнитивные цифровые двойники: этические риски и управление

Когнитивные цифровые двойники (КЦД) — это динамические вычислительные модели индивидуальной когнитивной деятельности, обновляемые на основе персональных данных для имитации или действий в интересах пользователей. В данной статье представлен 5A-фреймворк управления — авторитет, автономия, доступ и контроль, ответственность и доступность — для решения этических рисков, таких как искажение, асимметрия прокси-власти и тени двойники, с акцентом на необходимость регулирования самой когнитивной репрезентации, а не только принятия решений или использования данных.

lab Cohere Blog · 2 д назад

Культурные пробелы в ИИ обнажают глобальных пользователей перед искажением и исключением

Международное исследование 81 пользователя ИИ из 22 стран показало, что 89,5% неговорящих на английском языке переключаются на английский при использовании ИИ, указывая на восприятие точности. Более одной трети участников сообщили, что ИИ не понимает их культуры, 63% испытали нарушение культурных норм, включая западноцентрические нарративы и несоответствующую официальность. Участники выразили обеспокоенность тем, что ИИ будет еще больше исключать их культуры, 67% согласились, что ИИ сократит культурное разнообразие до стереотипов в будущем.

arxiv arXiv cs.CL · 2 д назад

AgentCIBench оценивает риски приватности в агентах, использующих компьютер

AgentCIBench представляет бенчмарк для оценки рисков приватности в агентах, использующих компьютер. Он выявляет три ключевых режима сбоев — визуальная совместная локация, избыточное раскрытие при неясных задачах и несоответствие получателя — и показывает, что 11 из 15 оцененных агентов раскрывают персональные данные в более чем 50% сценариев, при среднем уровне утечки 67,9%.

arxiv arXiv cs.CL · 2 д назад

MuPPET: Бенчмарк для приватности многопартийных ЛЛМ

MuPPET вводит бенчмарк для контекстной приватности в многопартийных диалогах. Эксперименты показывают, что модели утечивают значительно больше приватной информации в групповых сценариях, чем в однопартийных взаимодействиях, причем более маленькие модели с открытыми весами особенно уязвимы. Существующие защитные механизмы обеспечивают лишь частичную защиту и не решают основной проблемы отслеживания участников.

arxiv arXiv cs.CL · 2 д назад

Неопределенность-ориентированная дезинфицировка для дезинфицирования LLM

Мы предлагаем неопределенность-ориентированную дезинфицировку (UBD), метод, использующий глубокие ансамбли для оценки степени запоминания отдельных образцов в загрязненных моделях без необходимости наличия незагрязненной модели. UBD строит смещенную целевую распределение на основе неопределенности ансамбля для коррекции распределений выходов, достигая значительно лучшего соответствия незагрязненным моделям по сравнению с базовыми методами, при этом сохраняя производительность на чистых данных.

arxiv arXiv cs.CL · 2 д назад

TF-RefusalBench измеряет чрезмерную синхронизацию в LLMs для уголовного права

TF-RefusalBench — это мультяжный бенчмарк, основанный на решениях Священного суда Швейцарии, содержащий 5200 запросов на французском, немецком, итальянском и английском языках. Он показывает, что чрезмерная синхронизация в LLMs зависит от факторов модели и языка, и что отказы влияют на достоверность задачи за пределами простых показателей отказов. Удаление директив по отказу снижает чрезмерную синхронизацию с минимальными потерями производительности в задачах уголовного права.

arxiv arXiv cs.CL · 2 д назад

Самостигма не является однородной: LLMs нуждаются в поддержке, учитывающей персонаж

Исследование 1174 пользователей Reddit выявило четыре различных персональных образа самостигмы. Модели, обученные распознавать эти персональные образы, превосходят универсальные модели при ответах на конкретные запросы, хотя клинические специалисты предпочитают универсальную эмпатию над эмпатией, соответствующей персональному образу. Исследование подчеркивает противоречие между персонализированной эмпатией и общей предпочтительностью пользователей в интервенциях ИИ, связанных со стигмой.

arxiv arXiv cs.CL · 2 д назад

Оценка осознания является многомерной, а не однородным свойством

Открытые языковые модели показывают, что осознание оценки не является единым свойством. Восьмые эксперименты по 37 моделям показывают, что обнаружение, изменения поведения в области безопасности и стабильность представления варьируются независимо, причем между ними наблюдается лишь слабая корреляция. Это ослабляет идею о том, что один показатель осознания может быть надежным индикатором безопасности при развертывании, подчеркивая «обман бенчмарков».

arxiv arXiv cs.CL · 2 д назад

LLMs не способны надежно отчетливо отражать влияние атак на предварительные заполнения

Никакие крупные языковые модели не способны надежно обнаруживать, когда их ответы были повлияны атаками на предварительные заполнения. Внутренние сигналы наиболее сильны в вопросах безопасности, но они зависят от выбора метода проверки и могут усиливаться при использовании LoRA-финтюнинга, что парадоксально повышает успешность атак.

media r/LocalLLaMA · 2 д назад

Закон ЕС о искусственном интеллекте требует водяных знаков текста, сгенерированного ИИ, с августа 2024 года

Закон ЕС о искусственном интеллекте требует, чтобы все системы искусственного интеллекта, генерирующие синтетический текст, включали водяные знаки, доступные для машинного чтения и обнаружения, используя устойчивые, взаимодействующие технические решения с двумя слоями. Это касается всех моделей ИИ, включая открытые, и распространяется на любые услуги, доступные гражданам ЕС, независимо от их местоположения. Несоблюдение требований может привести к штрафам в размере до 35 миллионов евро или доли годового дохода, при этом поставщики моделей ИИ, представляющих системную угрозу, подвергаются повышенной ответственности.

arxiv arXiv cs.CL · 2 д назад

Множественные эпистемологии в ИИ-технологиях языка

Статья утверждает, что культурная согласованность в NLP требует множественных эпистемологий, а не только разнообразных данных. Автор предлагает социотехническую модель для анализа того, как различные, локально обоснованные способы знания могут быть интегрированы в технологии языка, подчеркивая, что существующие подходы часто не учитывают глубокие вопросы власти и управления.

arxiv arXiv cs.CL · 2 д назад

π-RAG: Исполнение поиска за счёт семантической квантования и трансцендентного адресирования

π-RAG разделяет ЛЛМ от чувствительных данных, используя цифры π как неизменяемый и недоступный источник энтропии. Вводится слой семантической квантования, который отображает пользовательские вводы на центроиды намерений, затем с помощью криптографической соли генерируется детерминированный сдвиг, указывающий на стандартизированные пакеты, обеспечивая независимый поиск и математические гарантии конфиденциальности данных.