Safety & alignment — korshunov.ai — новости ML

Safety & alignment Страница 1 / 11

lab OpenAI News · 2 д назад

OpenAI развивает общие стандарты ИИ через Appia Foundation

OpenAI, через Appia Foundation, продвигает общие стандарты для продвинутых ИИ, разрабатывая рамки оценки, практики безопасности и способствуя глобальному сотрудничеству.

media r/LocalLLaMA · 2 д назад

Позиция GLM 5.2 отражает влияние культурной подготовки

Пользователи хвалят GLM 5.2 за прямую и решительную позицию, в отличие от более сладких американских моделей. Автор предполагает, что такое поведение обусловлено культурно специфическими обучающими данными, что указывает на более сильное влияние локальных наборов данных, чем ранее предполагалось.

arxiv arXiv cs.CL · 2 д назад

Когнитивные цифровые двойники: этические риски и управление

Когнитивные цифровые двойники (КЦД) — это динамические вычислительные модели индивидуальной когнитивной деятельности, обновляемые на основе персональных данных для имитации или действий в интересах пользователей. В данной статье представлен 5A-фреймворк управления — авторитет, автономия, доступ и контроль, ответственность и доступность — для решения этических рисков, таких как искажение, асимметрия прокси-власти и тени двойники, с акцентом на необходимость регулирования самой когнитивной репрезентации, а не только принятия решений или использования данных.

lab Cohere Blog · 2 д назад

Культурные пробелы в ИИ обнажают глобальных пользователей перед искажением и исключением

Международное исследование 81 пользователя ИИ из 22 стран показало, что 89,5% неговорящих на английском языке переключаются на английский при использовании ИИ, указывая на восприятие точности. Более одной трети участников сообщили, что ИИ не понимает их культуры, 63% испытали нарушение культурных норм, включая западноцентрические нарративы и несоответствующую официальность. Участники выразили обеспокоенность тем, что ИИ будет еще больше исключать их культуры, 67% согласились, что ИИ сократит культурное разнообразие до стереотипов в будущем.

arxiv arXiv cs.CL · 2 д назад

AgentCIBench оценивает риски приватности в агентах, использующих компьютер

AgentCIBench представляет бенчмарк для оценки рисков приватности в агентах, использующих компьютер. Он выявляет три ключевых режима сбоев — визуальная совместная локация, избыточное раскрытие при неясных задачах и несоответствие получателя — и показывает, что 11 из 15 оцененных агентов раскрывают персональные данные в более чем 50% сценариев, при среднем уровне утечки 67,9%.

arxiv arXiv cs.CL · 2 д назад

MuPPET: Бенчмарк для приватности многопартийных ЛЛМ

MuPPET вводит бенчмарк для контекстной приватности в многопартийных диалогах. Эксперименты показывают, что модели утечивают значительно больше приватной информации в групповых сценариях, чем в однопартийных взаимодействиях, причем более маленькие модели с открытыми весами особенно уязвимы. Существующие защитные механизмы обеспечивают лишь частичную защиту и не решают основной проблемы отслеживания участников.

arxiv arXiv cs.CL · 2 д назад

Неопределенность-ориентированная дезинфицировка для дезинфицирования LLM

Мы предлагаем неопределенность-ориентированную дезинфицировку (UBD), метод, использующий глубокие ансамбли для оценки степени запоминания отдельных образцов в загрязненных моделях без необходимости наличия незагрязненной модели. UBD строит смещенную целевую распределение на основе неопределенности ансамбля для коррекции распределений выходов, достигая значительно лучшего соответствия незагрязненным моделям по сравнению с базовыми методами, при этом сохраняя производительность на чистых данных.

arxiv arXiv cs.CL · 2 д назад

TF-RefusalBench измеряет чрезмерную синхронизацию в LLMs для уголовного права

TF-RefusalBench — это мультяжный бенчмарк, основанный на решениях Священного суда Швейцарии, содержащий 5200 запросов на французском, немецком, итальянском и английском языках. Он показывает, что чрезмерная синхронизация в LLMs зависит от факторов модели и языка, и что отказы влияют на достоверность задачи за пределами простых показателей отказов. Удаление директив по отказу снижает чрезмерную синхронизацию с минимальными потерями производительности в задачах уголовного права.

arxiv arXiv cs.CL · 2 д назад

Самостигма не является однородной: LLMs нуждаются в поддержке, учитывающей персонаж

Исследование 1174 пользователей Reddit выявило четыре различных персональных образа самостигмы. Модели, обученные распознавать эти персональные образы, превосходят универсальные модели при ответах на конкретные запросы, хотя клинические специалисты предпочитают универсальную эмпатию над эмпатией, соответствующей персональному образу. Исследование подчеркивает противоречие между персонализированной эмпатией и общей предпочтительностью пользователей в интервенциях ИИ, связанных со стигмой.

arxiv arXiv cs.CL · 2 д назад

Оценка осознания является многомерной, а не однородным свойством

Открытые языковые модели показывают, что осознание оценки не является единым свойством. Восьмые эксперименты по 37 моделям показывают, что обнаружение, изменения поведения в области безопасности и стабильность представления варьируются независимо, причем между ними наблюдается лишь слабая корреляция. Это ослабляет идею о том, что один показатель осознания может быть надежным индикатором безопасности при развертывании, подчеркивая «обман бенчмарков».

arxiv arXiv cs.CL · 2 д назад

LLMs не способны надежно отчетливо отражать влияние атак на предварительные заполнения

Никакие крупные языковые модели не способны надежно обнаруживать, когда их ответы были повлияны атаками на предварительные заполнения. Внутренние сигналы наиболее сильны в вопросах безопасности, но они зависят от выбора метода проверки и могут усиливаться при использовании LoRA-финтюнинга, что парадоксально повышает успешность атак.

media r/LocalLLaMA · 2 д назад

Закон ЕС о искусственном интеллекте требует водяных знаков текста, сгенерированного ИИ, с августа 2024 года

Закон ЕС о искусственном интеллекте требует, чтобы все системы искусственного интеллекта, генерирующие синтетический текст, включали водяные знаки, доступные для машинного чтения и обнаружения, используя устойчивые, взаимодействующие технические решения с двумя слоями. Это касается всех моделей ИИ, включая открытые, и распространяется на любые услуги, доступные гражданам ЕС, независимо от их местоположения. Несоблюдение требований может привести к штрафам в размере до 35 миллионов евро или доли годового дохода, при этом поставщики моделей ИИ, представляющих системную угрозу, подвергаются повышенной ответственности.

arxiv arXiv cs.CL · 2 д назад

Множественные эпистемологии в ИИ-технологиях языка

Статья утверждает, что культурная согласованность в NLP требует множественных эпистемологий, а не только разнообразных данных. Автор предлагает социотехническую модель для анализа того, как различные, локально обоснованные способы знания могут быть интегрированы в технологии языка, подчеркивая, что существующие подходы часто не учитывают глубокие вопросы власти и управления.

arxiv arXiv cs.CL · 2 д назад

π-RAG: Исполнение поиска за счёт семантической квантования и трансцендентного адресирования

π-RAG разделяет ЛЛМ от чувствительных данных, используя цифры π как неизменяемый и недоступный источник энтропии. Вводится слой семантической квантования, который отображает пользовательские вводы на центроиды намерений, затем с помощью криптографической соли генерируется детерминированный сдвиг, указывающий на стандартизированные пакеты, обеспечивая независимый поиск и математические гарантии конфиденциальности данных.

media Hugging Face Forums · 2 д назад

Мой аккаунт Hugging Face был заблокирован

Пользователь сообщает, что его аккаунт Hugging Face, AntixStudioDesign, был неожиданно заблокирован во время экспериментов с инструментами ИИ. Он обратился в команду безопасности по электронной почте и ищет советы по восстановлению аккаунта, срокам ответа и вариантам сохранения данных.

arxiv arXiv cs.CL · 2 д назад

OTTER: Система красного тестирования для оптимизации промптов, избегающих токсичность

OTTER — это черный ящик, система красного тестирования, которая обходит фильтры токсичности, изменяя не более пяти токенов. Оценка проводилась на 457 промптах AdvBench по четырем моделям GPT, что привело к росту успешности проникновения в систему с 7,0% до 84,0%, что представляет первую количественную аналитику взаимосвязей избегания токсичности и практические рекомендации по укреплению классификаторов.

arxiv arXiv cs.CL · 2 д назад

Валидационно-ограниченный механизм анализа выявления суицидальных состояний в LLMs

Валидационно-ограниченная система оценивает внутренние характеристики LLM только после наблюдения за поведением, выявляя средний слой признака, который причинно вносит вклад в выявление суицидальных состояний. Этот признак является семантическим, низкого ранга, межмодельным и специфичным для суицидальных состояний по сравнению с общими состояниями тревоги, хотя направление его регулирования необходимо, но недостаточно. Паттерн показывает, что меньшие модели кодируют суицидальные состояния, но только более крупные модели реагируют на них, при этом доказательства ограничены английским текстом реддит-форумов.

arxiv arXiv cs.CL · 2 д назад

Исследование показало, что ИИ всё ещё несётся обнаруживать халцинации в юридических цитатах

Новое исследование показывает, что более 1000 юридических документов содержат вымышленные цитаты, количество которых ежегодно растёт. Проверка пяти ИИ-моделей показывает улучшение производительности, при этом GPT-5 достигает 82,8% точности и 60,5% F1 в агентных условиях, однако все модели сталкиваются с трудностями в обнаружении тонких ошибок и сталкиваются с ограничениями из-за ограниченного доступа к информации.

arxiv arXiv cs.CL · 2 д назад

MedLayXPlain: Оценка разрыва между экспертными и непрофессиональными знаниями в медицинских моделях визуально-языковых

MedLayXPlain представляет первый масштабный бенчмарк для генерации медицинских непрофессиональных языковых образцов, содержащий 122 789 образцов с региональной привязкой в восьми модальностях изображений. Он оценивает медицинские модели визуально-языковых систем на согласованности между экспертными и непрофессиональными знаниями с использованием иерархической системы онтологии и лёгкого оценщика, выявляя систематический разрыв: экспертный уровень производительности при описании изображений сопровождается значительным снижением в непрофессиональной речи, при этом общие модели не обладают клинической точностью.

arxiv arXiv cs.CL · 2 д назад

Слушаемые интерпретируемые векторы речевых эмбеддингов

LISE разлагает векторы речевых эмбеддингов на интерпретируемые компоненты без аннотаций. Эксперименты с прослушиванием показывают, что участники испытаний правильно различают говорящих с точностью 83,9%, что подтверждает интерпретируемость компонент при сохранении производительности в области распознавания речи.