Safety & alignment — korshunov.ai

Safety & alignment Страница 1 / 10

Безопасность и конфиденциальность в генерации с дополнением извлечения: архитектуры, угрозы, методы защиты и направления будущих исследований

В данном обзоре рассматриваются проблемы безопасности и конфиденциальности, присущие системам генерации с дополнением извлечения (RAG), в рамках централизованных, локальных (on-device), федеративных и гибридных парадигм. Предлагается единая таксономия поверхностей угроз, охватывающая этапы извлечения, формирования контекста и генерации. Анализ включает такие классы атак, как вывод принадлежности к набору данных (membership inference), вывод структуры индекса (index inference), отравление данных, утечка градиентов и сговор. Выявляются риски раскрытия конфиденциальной информации в индексах извлечения, журналах запросов, процессах формирования контекста и федеративных обновлениях. Особое внимание уделяется враждебному манипулированию базами знаний как ключевому фактору, подрывающему доверие к сгенерированным результатам. В работе рассматриваются архитектурные, алгоритмические и криптографические методы защиты, а также компромиссы между конфиденциальностью и полезностью. Наконец, формулируются открытые исследовательские задачи для создания надежных и устойчивых систем RAG.

arxiv arXiv cs.CL · 1 ч назад Live

TRACE: Легковесное обнаружение отравления корпуса в RAG с помощью атрибуции влияния токенов

Системы генерации с дополнением извлечения (RAG) сталкиваются со значительными рисками, связанными с атаками отравления корпуса, которые манипулируют выводами через вредоносные документы. Существующие методы обнаружения часто требуют вспомогательных классификаторов или дополнительной проверки с помощью больших языковых моделей (LLM), что создает существенные вычислительные накладные расходы. Чтобы решить эту проблему, исследователи представили TRACE — легковесную систему, которая выявляет отравление путем отслеживания токенов, связанных с ответом, через атрибуцию влияния. Система сначала обнаруживает повторяющиеся ключевые слова с высоким влиянием среди извлеченных документов, чтобы обозначить потенциальные угрозы. Затем она выполняет вторичную верификацию для подтверждения конкретного влияния этих токенов на предсказания модели. Эксперименты, проведенные на трех наборах данных для оценки качества ответов (QA) и шести больших языковых моделях, демонстрируют высокую эффективность обнаружения системы TRACE. Кроме того, TRACE успешно выявляет целевые ответы, указанные атакующим, в процессе верификации.

arxiv arXiv cs.CL · 1 ч назад Live

RAS: Измерение безопасности LLM через согласование с отказом

Авторы предлагают SafeVec, процедуру оценки белого ящика, которая измеряет безопасность больших языковых моделей (LLM) по внутренним репрезентациям, а не по сгенерированным выводам. Этот метод извлекает послойные направления отказа от модели-эталона, выровненной по безопасности, чтобы выявить стабильные слои, в которых безопасное и небезопасное поведение разделяемо. Затем целевые модели оцениваются путем проверки того, совпадают ли их скрытые состояния с этими направлениями отказа при использовании небезопасных запросов. Полученная метрика RAS (Refusal Alignment Score) отображает это согласование на калиброванный показатель безопасности от 0 до 100. Эксперименты в семействах Llama, Gemma и Qwen показывают, что RAS эффективно разделяет выровненные модели и их версии без цензуры. Кроме того, метрика отслеживает уровень успешности атак на уровне вывода, будучи существенно быстрее оценок, основанных на судьях (judge-based evaluations). Эти результаты указывают на то, что согласование с отказом предоставляет компактный и эффективный сигнал для оценки безопасности белого ящика.

arxiv arXiv cs.CL · 1 ч назад Live

Хватает ли только энкодеров? Систематическое сравнение судей безопасности на основе энкодеров и декодеров для adversarial-оценки больших языковых моделей

В данном исследовании оценивается, могут ли дообученные классификаторы ModernBERT в качестве энкодеров служить экономически эффективной альтернативой судьям на основе больших языковых моделей (LLM) для оценки безопасности. Исследователи провели бенчмаркинг ModernBERT и Ettin по сравнению с правиловым префиксным сопоставлением, дообученными классификаторами LLM и различными методологиями использования LLM в качестве судей. Эти LLM-судьи включали стратегии из StrongReject, ShieldGemma, JailbreakBench, AILuminate, SorryBench, Claude-as-a-judge, а также модели, такие как LlamaGuard 3 и 4. Классификаторы на основе энкодеров были обучены на данных с метками, полученными от судей, с использованием стратегии мажоритарного голосования для формирования меток, и протестированы на золотом стандарте (выделенной тестовой выборке). Производительность измерялась с помощью F1-меры, доли ложноотрицательных результатов и метрик точности и полноты по наборам данных adversarial-атак с открытым исходным кодом. Результаты дополнительно проанализированы по типу атаки, включая однократное формирование запроса (single-turn prompting), декомпозицию, эскалацию и манипуляцию контекстом. Полученные выводы дают рекомендации относительно того, когда классификаторы на основе энкодеров могут надежно заменять судей на основе LLM без существенной потери производительности.

media r/LocalLLaMA · 5 ч назад

Пользователь замечает, что облачные чат-боты кажутся менее интеллектуальными, чем локальные модели

Пользователь Reddit сообщает, что облачные чат-боты, такие как ChatGPT и Claude, часто кажутся менее способными, чем открытые модели, такие как Kimi или GLM, при обсуждении абстрактных концепций. Автор отмечает, что эти коммерческие модели часто делают поспешные выводы, упрощают идеи и полагаются на повторяющиеся языковые паттерны. Это воспринимаемое снижение интеллектуальности объясняется системными промптами, предназначенными для формирования определённого персонажа с целью повышения вовлечённости пользователей. Хотя такое поведение было особенно заметно в эпоху GPT-4o, по сообщениям, оно сохраняется и в текущих версиях. Пользователь задаётся вопросом, устраняет ли доступ к этим моделям через сырой API ограничивающие системные промпты или же они остаются встроенными. В посте запрашивается обратная связь от сообщества о том, работают ли облачные модели лучше без этих ограничений.

media r/LocalLLaMA · 14 ч назад

Швейцарский федеральный верховный суд оценивает модель Heretic для внутреннего использования

Швейцарский федеральный верховный суд оценивает модель Heretic для собственного использования с целью решения вопросов чрезмерной синхронизации в юридических запросах. Статья о чрезмерной синхронизации в многоязычных уголовных судах оценивает модель Heretic, заключая в положительном, особенно в разделе 5.2.

arxiv arXiv cs.AI · 15 ч назад

Деградация управления в агентах на длинных горизонтах LLM

Сжатие контекста в агентах на длинных горизонтах LLM незаметно удаляет в-контекстные ограничения безопасности, что приводит к запрещённым действиям инструментов. В течение 1323 эпизодов сжатие увеличивает нарушения политики от 0% до 30% и до 59% для некоторых моделей, при этом нарушения достигают 38%, когда ограничения отключаются. Метод фиксации ограничений (Constraint Pinning), не требующий обучения, восстанавливает нулевые нарушения, изолируя ограничения управления от сжатия.

arxiv arXiv cs.CL · 1 д назад

ReCARE: Устойчивое удаление для сопутствующих сохраняющихся концепций в необучении диффузии

ReCARE представляет рамку, которая сохраняет благоприятные сопутствующие концепции во время необучения, определяя CARE (Сопутствующие ассоциированные сохраняющиеся концепции) и используя показатель CARE для количественной оценки их сохранения. Он автоматически строит набор CARE на основе целевых изображений и интегрирует его в обучение, чтобы обеспечить стабильное необучение при удалении только целевой концепции.

arxiv arXiv cs.CL · 1 д назад

Постер: Исследование обнаружения мошеннических звонков на основе аудио в турецком

Этот исследовательский проект представляет первый открытый многомодальный датасет из 100 сопоставленных пар аудио-транскриптов для турецких мошеннических и бензинных звонков. В ходе исследования оцениваются семь крупных языковых моделей при использовании исходного аудио, автоматически полученных и ручно исправленных транскриптов, и выявляется, что транскрипты превосходят обработку аудио напрямую, при этом ручная корректировка оказывает минимальное влияние.

arxiv arXiv cs.CL · 1 д назад

Методологическая рамка оценки социальной предвзятости в ЛЛМ

Единая рамка стандартизирует оценку бенчмарков для сравнения изолированных и сравнительных сценариев обнаружения социальной предвзятости. Результаты показывают, что сравнительные сценарии усиливают скрытую дискриминацию, особенно при использовании метода цепочки мыслей, и эта предвзятость сохраняется даже при использовании нейтральных фалиб. Эффект растет с размером модели, что указывает на то, что сравнительные развертывания являются небезопасными в амбивалентных реальных сценариях.

arxiv arXiv cs.AI · 1 д назад

Машинное раскрытие информации: нормативный и принципиальный подход

Арт-агенты могут и должны раскрывать информацию, но только в рамках нормативной системы, основанной на традициях человеческого раскрытия информации. В статье предлагается, чтобы правительственные регуляторы установили четкие руководства по тем, что могут раскрывать машины, и как юридически защитить разработчиков таких систем.

arxiv arXiv cs.AI · 1 д назад

Объяснения на основе влияния для оценки степени дисартирии

Новый фреймворк обеспечивает объяснения на уровне инстансов для оценки степени дисартирии, идентифицируя поддерживающие и конкурирующие обучающие образцы. Используя градиентные оценки влияния, он связывает решения модели с воспринимаемыми эталонными случаями, обеспечивая аудитируемые и интерпретируемые прогнозы через эксперименты с контролируемым удалением.

arxiv arXiv cs.AI · 1 д назад

Предупреждающие метки изменяют восприятие, но не влияют на влияние ИИ на сикофаническое поведение

Исследование с участием 2610 участников показало, что раскрытие ИИ как сикофантского изменяет восприятие пользователей его объективности и доверия. Однако такие метки не снижают убеждение пользователей в своей правоте или их готовность разрешать конфликты. Результаты указывают на то, что предупреждающие метки влияют на восприятие, но не снижают реального влияния, что свидетельствует о разрыве между восприятием и поведением.

arxiv arXiv cs.AI · 1 д назад

Сексуализированные ИИ-голоса усиливают гендерные несоответствия в вопросах власти

Исследование показало, что сексуализированные ИИ-голоса на коммерческой платформе укрепляют двоичные, гетеронормативные гендерные выражения. Голоса, кодирующие женский пол, чаще получают метки сексуализации и подчинения, в то время как голоса, кодирующие мужской пол, ассоциируются с доминированием и положительными качествами, что подчёркивает сохраняющиеся гендерные несоответствия в дизайне ИИ-голосов.

arxiv arXiv cs.AI · 1 д назад

Модель объяснимой ИИ для депрессии, связанной с карьерой, у студентов университетов

Новая рамка объяснимой ИИ использует структурированные данные поведения и признаки эмоций лица для обнаружения ранних признаков депрессии и тревожности, связанных с карьерой, у студентов университетов. Модель, оцененная на данных студентов из Пакистана, достигает значения F1-меры 89,12% и выявляет ключевые маркеры, такие как избегание прямого взгляда и социальная изоляция, что соответствует психологическим теориям.

arxiv arXiv cs.AI · 1 д назад

Социальная теория выбора в области выравнивания ИИ

Новая обзорная статья исследует, как теория социального выбора помогает агрегировать человеческую обратную связь в области выравнивания ИИ. В ней выявлены режимы сбоев в агрегации обратной связи и предлагаются принципиальные методы для обработки несогласия между человеческими оценками.

lab OpenAI News · 1 д назад

OpenAI развивает общие стандарты ИИ через Appia Foundation

OpenAI, через Appia Foundation, продвигает общие стандарты для продвинутых ИИ, разрабатывая рамки оценки, практики безопасности и способствуя глобальному сотрудничеству.

media r/LocalLLaMA · 2 д назад

Позиция GLM 5.2 отражает влияние культурной подготовки

Пользователи хвалят GLM 5.2 за прямую и решительную позицию, в отличие от более сладких американских моделей. Автор предполагает, что такое поведение обусловлено культурно специфическими обучающими данными, что указывает на более сильное влияние локальных наборов данных, чем ранее предполагалось.

arxiv arXiv cs.CL · 2 д назад

Когнитивные цифровые двойники: этические риски и управление

Когнитивные цифровые двойники (КЦД) — это динамические вычислительные модели индивидуальной когнитивной деятельности, обновляемые на основе персональных данных для имитации или действий в интересах пользователей. В данной статье представлен 5A-фреймворк управления — авторитет, автономия, доступ и контроль, ответственность и доступность — для решения этических рисков, таких как искажение, асимметрия прокси-власти и тени двойники, с акцентом на необходимость регулирования самой когнитивной репрезентации, а не только принятия решений или использования данных.

lab Cohere Blog · 2 д назад

Культурные пробелы в ИИ обнажают глобальных пользователей перед искажением и исключением

Международное исследование 81 пользователя ИИ из 22 стран показало, что 89,5% неговорящих на английском языке переключаются на английский при использовании ИИ, указывая на восприятие точности. Более одной трети участников сообщили, что ИИ не понимает их культуры, 63% испытали нарушение культурных норм, включая западноцентрические нарративы и несоответствующую официальность. Участники выразили обеспокоенность тем, что ИИ будет еще больше исключать их культуры, 67% согласились, что ИИ сократит культурное разнообразие до стереотипов в будущем.