Safety & alignment — korshunov.ai

Safety & alignment Страница 1 / 10

Устранение предвзятости при ограничениях на покрытие и цена справедливости

Новый подход решает проблему предвзятости в машинном обучении, вводя ограничения на покрытие для обеспечения достаточной представленности пересекающихся подгрупп. Он компромиссно устраняет малые ошибки предвзятости за счет повышения эффективности данных и формулирует устранение предвзятости как целочисленную линейную задачу, характеризуя цену справедливости в виде функции от допуска на справедливость для руководства по управлению данными и соответствию законодательству.

arxiv arXiv cs.LG · 6 д назад

Римановская острота объясняет предвзятость SGD к плоским минимумам

Этот исследовательский проект вводит римановскую остроту — инвариантную по перепараметризации меру плоскости, основанную на геометрии матрицы информационной функции Фишера. В нем доказывается, что стационарное распределение SGD сконцентрировано в римановых плоских минимумах, и связывается эта геометрическая предвзятость с обобщением через границу PAC-Bayes. Эксперименты на MNIST и CIFAR-10 показывают, что римановская острота лучше отражает обобщение, чем евклидова острота, с масштабированием, согласующимся с теорией.

arxiv arXiv cs.LG · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.LG · 6 д назад

Передача предвзятости в системах мультиагентных языковых моделей

Contagion Networks представляет рамку для измерения того, как предвзятости оценщиков распространяются среди агентов языковых моделей. В эксперименте с тремя агентами предвзятости распространяются с коэффициентами от 0,157 до 0,352, и агенты однородных моделей демонстрируют значительно меньшую передачу по сравнению с кросс-модельными конфигурациями. Увеличение размера комитета оценщиков от k=1 до k=3 снижает эффективную передачу на 72,4%.

arxiv arXiv cs.LG · 6 д назад

Как безопасные LLM интерпретируют смешанные демонстрации соблюдения

Исследование показывает, что добровольные и вредоносные демонстрации соблюдения не являются взаимозаменяемыми в языковых моделях. Добровольные демонстрации могут либо снизить, либо увеличить вредоносное соблюдение в зависимости от модели, при этом оптимизация предпочтений играет ключевую роль в предотвращении вредоносного соблюдения. Исследование также выявило смещение в порядке демонстраций и разнообразные поведения моделей при обработке отказов в процессе в-контекстного обучения.

arxiv arXiv cs.LG · 6 д назад

Совершенно самостоятельный исполнительный брокер для агентного контроля с сертификатами

Совершенно самостоятельный исполнительный брокер (SEB) вводит границу выполнения в режиме работы, которая проверяет и выполняет сертифицированную власть в системах агентов. Он обеспечивает изоляцию производственной власти изменения от неопределенных процессов принятия решений, проверяя контракты выполнения, сроки действия и состояние отмены перед вызовом API инфраструктуры. Прототип демонстрирует безопасное и аудитируемое выполнение на AWS и Kubernetes с измеримыми задержками и устойчивостью к сбоям.

arxiv arXiv cs.LG · 6 д назад

Прогнозируемость как мелкое измерение для конфиденциальности

Конфиденциальность через прогнозируемость вводит рамку, измеряющую утечку конфиденциальности как способность атакующего предсказывать чувствительную информацию после наблюдения выхода алгоритма. Обычно она несопоставима с дифференциальной конфиденциальностью, но под определёнными условиями имплицирует дифференциальную конфиденциальность на основе взаимной информации, предлагая более тонкое измерение конфиденциальности, адаптированное к моделям атакующих и чувствительным данным.

arxiv arXiv cs.LG · 6 д назад

Определённая многокалибровка с оптимальной сложностью выборки

Новый алгоритм достигает оптимальной сложности выборки в минимаксном смысле для многокалибровки с использованием определённых предикторов, решая долговременную открытую проблему. Метод также генерирует определённые предикторы, удовлетворяющие условию неотличимости результатов, и позволяет построить оптимальные определённые универсальные предикторы и универсальные предикторы, решая открытые вопросы из предыдущих работ.

arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 6 д назад

StylisticBias: Визуальные подсказки определяют большинство социальных предвзятостей в МЛЛМ

StylisticBias представляет контролируемую метрику для оценки социальных предвзятостей на уровне атрибутов в мультимодальных больших языковых моделях. Исследование показывает, что возраст и тип тела доминируют в эффектах на уровне идентичности, в то время как стиль моды и 15 ключевых визуальных атрибутов определяют большинство предвзятостей, что объясняет почти 80% вариации. Метрика подчеркивает, что суждения моделей наиболее чувствительны к визуальным подсказкам, особенно в контекстах, связанных с экономическим положением и стилем.

arxiv arXiv cs.CL · 6 д назад

LedgerAgent: структурированный статус для агентов вызова инструментов, соблюдающих политику

LedgerAgent вводит структурированный журнал для поддержания состояний задач отдельно в агентах вызова инструментов. Он превращает эти состояния в промпты и обеспечивает соблюдение политических ограничений до выполнения инструмента, что снижает нарушения политики и улучшает производительность в областях обслуживания клиентов.

arxiv arXiv cs.AI · 6 д назад

Психологические профили LLM являются артефактами измерения

Формальный психометрический анализ показывает, что видимые психологические профили больших языковых моделей в основном обусловлены смещением ответов, а не реальными чертами. Это смещение, которое приводит к систематическому предпочтению моделей к одному концу шкалы, объясняет 81-90% разнообразия между моделями, что значительно превышает различия между людьми. Исследование заключает, что эти профили являются артефактами конструкции инструмента и не отражают истинных свойств моделей, и призывает к разработке оценок, основанных на ортогональности ответов.

arxiv arXiv cs.AI · 6 д назад

Термодинамическая мера интеллекта

Интеллект определяется как законное усиление редких, но корректных будущих. Фреймворк показывает, что рекурсивная самосимуляция необходима и почти достаточна для высокой термодинамической интеллектуальности, что позволяет создать универсальную и измеримую шкалу для систем от материи до людей и искусственного интеллекта.

arxiv arXiv cs.AI · 6 д назад

MACR: Явное разрешение конфликтов в инференсе LLM

MACR представляет многоагентную систему рассуждений для разрешения конфликтов знаний в инференсе LLM путем совместной оценки внутренних и внешних знаний. Используя семантическую энтропию для измерения уверенности, MACR применяет три специализированных агента для индукции правил, обнаружения конфликтов и разрешения несоответствий между контекстами. Эмпирические результаты показывают, что MACR превосходит методы, являющиеся самыми передовыми, и обеспечивает интерпретируемые решения конфликтов.

arxiv arXiv cs.AI · 6 д назад

Соответствие редакционным стандартам в распространении знаний с помощью языковых моделей

Кейс-стади с норвежской государственной институцией по распространению знаний демонстрирует, как участие редакторов может пересмотреть интерфейсы языковых моделей в соответствии с редакционными стандартами. В статье вводится понятие редакционного соответствия как дизайнерской практики в участии в ИИ, где редакционные ценности преобразуются в технические цели соответствия. Такой подход обеспечивает редакторам автономию в распространении знаний с помощью языковых моделей.

arxiv arXiv cs.AI · 6 д назад

Доверие-ориентированный автоматизированный анализ студентских научных моделей

Модель на основе визуального анализа с параметрической эффективной адаптацией оценивает рисунки студентов в образовательной среде. Она использует оценку с учетом доверия для автоматического анализа высокодоверительных ответов, откладывая неопределенные ответы на ручную проверку, что повышает надежность и практическую применимость при масштабных оценках.

arxiv arXiv cs.AI · 6 д назад

CRAX: Быстрый безопасный бенчмарк для обучения с усилением

CRAX вводит высокоточный ускоренный бенчмарк безопасности для обучения с усилением с использованием MuJoCo XLA. Он достигает ускорения до 100 раз по сравнению с бенчмарками на процессоре за счёт векторизации и ускорения аппаратными средствами, включая шесть наборов сред и три задачи для агентов на трёх уровнях сложности. Оценка шести методов безопасного обучения с усилением показывает, что ни один подход не доминирует, что подчёркивает компромиссы между производительностью и безопасностью, при этом куррикулярное обучение и передача безопасности улучшают результаты.

arxiv arXiv cs.LG · 6 д назад

EFIQA: Оценка качества фундус-изображений без меток с возможностью объяснения

EFIQA предлагает безметочную архитектуру для оценки качества фундус-изображений, использующую анатомические предпосылки для генерации карт пространственного качества. Сначала обучается необученный детектор аномалий с помощью маскирования анатомических вставок для выявления отсутствующих сосудов, затем эта информация передается в виде небольшого адаптера для отображения качества. Оценка на внешних данных показывает, что EFIQA превосходит методы с метками как по производительности, так и по объяснимости при различных критериях качества.

arxiv arXiv cs.LG · 6 д назад

Федеративное управление риском через сжатие кривой риска

Новый метод федеративного управления риском решает проблемы несоответствия в прогнозах на уровне больниц. На реальных данных о черепно-мозговых опухолях из 20 учреждений объединенная калибровка не срабатывает на 40% сайтов, при этом один из них превышает порог ложных отрицательных результатов на 7,8 процентных пунктов. Предложенный протокол на основе сжатия кривой риска использует эмпирические кривые риска и гиперпараметр n0=19, обеспечивая 2,7/20 нарушений охвата при растяжении предсказательного набора в 2,0 раза, при этом сохраняя междусайтовые гарантии и обеспечивая отсутствие передачи данных на уровне пациентов на любом из сайтов.

arxiv arXiv cs.LG · 6 д назад

Эффективная размерность определяет обобщение в квантовых моделях зрения

Квантовые модели зрения демонстрируют лучшее обобщение при большем запутывании или квантовом шуме, явления, объединяющиеся через эффективную размерность квантового ядра признаков, формирующегося под действием шума. Эта размерность выступает в качестве механизма регуляризации в режимах переобучения, при амплитудном затухании тестовая точность улучшается на до 13% вдоль инвертированного-U оптимального диапазона.