Safety & alignment — korshunov.ai

Safety & alignment Страница 4 / 11

Калибровка без понимания в обнаружении уязвимостей в LLM

CWE-Trace оценивает восемь прямых и 15 LoRA-настроенных LLM на обнаружении уязвимостей в ядре Linux. Результаты показывают, что заражение данными не дает преимущества, а настройка только сдвигает пороги вывода без изменения политики принятия решений. Несмотря на улучшение показателей обнаружения, LLM не обладают надежным безопасным мышлением, при этом точность по CWE на первом месте составляет менее 1,3%, а бинарная производительность обнаружения достигает 52,1%.

arxiv arXiv cs.AI · 6 д назад

FreeStyle: масштабируемое генерирование двойных ссылок через извлечение сообщественных LoRAs

FreeStyle предлагает рамку, которая извлекает сообщественные LoRAs для генерации масштабных троек изображений с двумя ссылками — стилем и содержанием. В ней используется двухэтапная куррикулярная система с механизмами разъединения, чтобы подавить утечку стиля, и вводится бенчмарк с оценками, не зависящими от стиля и основанными на ВЛМ, для оценки сохранения содержания и отклонения утечки стиля.

arxiv arXiv cs.AI · 6 д назад

Как безопасные LLM интерпретируют смешанные демонстрации соблюдения

Исследования показывают, что добрые и вредные демонстрации соблюдения не являются взаимозаменяемыми в LLM. Добрые демонстрации могут либо снизить, либо увеличить вредные демонстрации в зависимости от модели, при этом оптимизация предпочтений играет ключевую роль в предотвращении вредных демонстраций. Порядок демонстраций показывает сильную предпочтительность последних элементов, и модели различаются по способности обрабатывать отказ в процессе обучения в контексте.

arxiv arXiv cs.AI · 6 д назад

Эффективная и надежная вероятностная проверка для агентов ИИ

Новый фреймворк обеспечивает безопасную вероятностную проверку политик для агентов ИИ в неопределенных средах. Он использует распределенно устойчивую оптимизацию для вычисления строгих верхних оценок вероятности нарушения политик без предположения независимости предикатов. Метод превосходит предыдущие подходы на бенчмарках для агентов-конечных и вызова инструментов, улучшая баланс между безопасностью и полезностью.

arxiv arXiv cs.AI · 6 д назад

Совершенно самостоятельный брокер исполнения для агентного управления с сертифицированными сертификатами

Совершенно самостоятельный брокер исполнения (SEB) вводит границу выполнения в реальном времени, которая проверяет и исполняет сертифицированные полномочия в системах на основе агентов. Он проверяет контракты о выполнении, проверяет сроки действия и обеспечивает соблюдение политик до вызова API инфраструктуры, предоставляя кратковременную, аудитируемую и отзываемую возможность выполнения. Прототип был оценен на AWS и Kubernetes, измеряя задержку, распространение отзыва и устойчивость к введению сбоев.

arxiv arXiv cs.AI · 6 д назад

LedgerAgent: структурированный статус для агентов вызова инструментов, соблюдающих политику

LedgerAgent вводит структурированный журнал для поддержания состояний задач отдельно в агентах вызова инструментов. Он превращает состояния в промпты и обеспечивает соблюдение политических ограничений до выполнения инструмента, что снижает нарушения политики и улучшает производительность в областях обслуживания клиентов.

arxiv arXiv cs.LG · 6 д назад

Легкая защита от введения ложных данных в сети электроснабжения

Новая защитная система повышает устойчивость глубоких нейронных сетей к атакам введения ложных данных в сетях электроснабжения за счет добавления слоя заполнения с псевдопараметрами, полученными из статистических распределений входных данных. Такой легкий, универсальный подход увеличивает размерность входных данных случайным, данных-ориентированным способом, делая враждебные возмущения непереносимыми и непредсказуемыми, тем самым эффективно противодействуя атакам без снижения производительности.

arxiv arXiv cs.LG · 6 д назад

Устранение предвзятости при ограничениях на покрытие и цена справедливости

Новый подход решает проблему предвзятости в машинном обучении, вводя ограничения на покрытие для обеспечения достаточной представленности пересекающихся подгрупп. Он компромиссно устраняет малые ошибки предвзятости за счет повышения эффективности данных и формулирует устранение предвзятости как целочисленную линейную задачу, характеризуя цену справедливости в виде функции от допуска на справедливость для руководства по управлению данными и соответствию законодательству.

arxiv arXiv cs.LG · 6 д назад

Римановская острота объясняет предвзятость SGD к плоским минимумам

Этот исследовательский проект вводит римановскую остроту — инвариантную по перепараметризации меру плоскости, основанную на геометрии матрицы информационной функции Фишера. В нем доказывается, что стационарное распределение SGD сконцентрировано в римановых плоских минимумах, и связывается эта геометрическая предвзятость с обобщением через границу PAC-Bayes. Эксперименты на MNIST и CIFAR-10 показывают, что римановская острота лучше отражает обобщение, чем евклидова острота, с масштабированием, согласующимся с теорией.

arxiv arXiv cs.LG · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.LG · 6 д назад

Передача предвзятости в системах мультиагентных языковых моделей

Contagion Networks представляет рамку для измерения того, как предвзятости оценщиков распространяются среди агентов языковых моделей. В эксперименте с тремя агентами предвзятости распространяются с коэффициентами от 0,157 до 0,352, и агенты однородных моделей демонстрируют значительно меньшую передачу по сравнению с кросс-модельными конфигурациями. Увеличение размера комитета оценщиков от k=1 до k=3 снижает эффективную передачу на 72,4%.

arxiv arXiv cs.LG · 6 д назад

Как безопасные LLM интерпретируют смешанные демонстрации соблюдения

Исследование показывает, что добровольные и вредоносные демонстрации соблюдения не являются взаимозаменяемыми в языковых моделях. Добровольные демонстрации могут либо снизить, либо увеличить вредоносное соблюдение в зависимости от модели, при этом оптимизация предпочтений играет ключевую роль в предотвращении вредоносного соблюдения. Исследование также выявило смещение в порядке демонстраций и разнообразные поведения моделей при обработке отказов в процессе в-контекстного обучения.

arxiv arXiv cs.LG · 6 д назад

Совершенно самостоятельный исполнительный брокер для агентного контроля с сертификатами

Совершенно самостоятельный исполнительный брокер (SEB) вводит границу выполнения в режиме работы, которая проверяет и выполняет сертифицированную власть в системах агентов. Он обеспечивает изоляцию производственной власти изменения от неопределенных процессов принятия решений, проверяя контракты выполнения, сроки действия и состояние отмены перед вызовом API инфраструктуры. Прототип демонстрирует безопасное и аудитируемое выполнение на AWS и Kubernetes с измеримыми задержками и устойчивостью к сбоям.

arxiv arXiv cs.LG · 6 д назад

Прогнозируемость как мелкое измерение для конфиденциальности

Конфиденциальность через прогнозируемость вводит рамку, измеряющую утечку конфиденциальности как способность атакующего предсказывать чувствительную информацию после наблюдения выхода алгоритма. Обычно она несопоставима с дифференциальной конфиденциальностью, но под определёнными условиями имплицирует дифференциальную конфиденциальность на основе взаимной информации, предлагая более тонкое измерение конфиденциальности, адаптированное к моделям атакующих и чувствительным данным.

arxiv arXiv cs.LG · 6 д назад

Определённая многокалибровка с оптимальной сложностью выборки

Новый алгоритм достигает оптимальной сложности выборки в минимаксном смысле для многокалибровки с использованием определённых предикторов, решая долговременную открытую проблему. Метод также генерирует определённые предикторы, удовлетворяющие условию неотличимости результатов, и позволяет построить оптимальные определённые универсальные предикторы и универсальные предикторы, решая открытые вопросы из предыдущих работ.

arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 6 д назад

StylisticBias: Визуальные подсказки определяют большинство социальных предвзятостей в МЛЛМ

StylisticBias представляет контролируемую метрику для оценки социальных предвзятостей на уровне атрибутов в мультимодальных больших языковых моделях. Исследование показывает, что возраст и тип тела доминируют в эффектах на уровне идентичности, в то время как стиль моды и 15 ключевых визуальных атрибутов определяют большинство предвзятостей, что объясняет почти 80% вариации. Метрика подчеркивает, что суждения моделей наиболее чувствительны к визуальным подсказкам, особенно в контекстах, связанных с экономическим положением и стилем.

arxiv arXiv cs.CL · 6 д назад

LedgerAgent: структурированный статус для агентов вызова инструментов, соблюдающих политику

LedgerAgent вводит структурированный журнал для поддержания состояний задач отдельно в агентах вызова инструментов. Он превращает эти состояния в промпты и обеспечивает соблюдение политических ограничений до выполнения инструмента, что снижает нарушения политики и улучшает производительность в областях обслуживания клиентов.

arxiv arXiv cs.AI · 6 д назад

Психологические профили LLM являются артефактами измерения

Формальный психометрический анализ показывает, что видимые психологические профили больших языковых моделей в основном обусловлены смещением ответов, а не реальными чертами. Это смещение, которое приводит к систематическому предпочтению моделей к одному концу шкалы, объясняет 81-90% разнообразия между моделями, что значительно превышает различия между людьми. Исследование заключает, что эти профили являются артефактами конструкции инструмента и не отражают истинных свойств моделей, и призывает к разработке оценок, основанных на ортогональности ответов.

arxiv arXiv cs.AI · 6 д назад

Термодинамическая мера интеллекта

Интеллект определяется как законное усиление редких, но корректных будущих. Фреймворк показывает, что рекурсивная самосимуляция необходима и почти достаточна для высокой термодинамической интеллектуальности, что позволяет создать универсальную и измеримую шкалу для систем от материи до людей и искусственного интеллекта.