Safety & alignment — korshunov.ai

Safety & alignment Страница 1 / 10

Недостаточность синхронизации неопределенности MC Dropout для клинической безопасности в сегментации глиом

Исследование на 126 пациентах BraTS21 показывает, что хотя MC Dropout обеспечивает сильную синхронизацию неопределенности и ошибок, он не способен обнаруживать критические проблемы калибровки при улучшении зон опухоли. Модель UNet-Res демонстрирует почти нулевую энтропию и высокую ECE в этих клинически важных областях, при этом Dice-оценка составляет 0,714, что указывает на серьезную некалибровку, не видимую стандартными метриками, такими как Dice и AUROC. Эти результаты подчеркивают, что синхронизация неопределенности сама по себе недостаточна для клинической безопасности, и необходимо оценивать калибровку в отдельных областях вместе с традиционными метриками.

arxiv arXiv cs.AI · 7 д назад

Безопасность отражения в предобучении для языковых моделей

Безопасность отражения в предобучении вставляет краткие отражения по безопасности в данные предобучения, чтобы обеспечить самонаблюдение в языковых моделях. Эксперименты с моделями 1,7B на наборе FineWeb-Edu показывают улучшение точности безопасности и снижение успешности атак, при этом MedSafetyWorld демонстрирует, что данный метод лучше предотвращает обобщение опасных поведений из безопасных данных, чем фильтрация или переписывание данных.

arxiv arXiv cs.AI · 7 д назад

Классификация связывает потребности присматривающих с технологиями в области психического здоровья

Новая классификация связывает психическое здоровье присматривающих при болезни Альцгеймера и деменции с технологическими вмешательствами. Она выявляет пробелы в поддержке таких вопросов, как напряжение в отношениях и выгорание сострадания, и предлагает общую рамку для проектирования технологий, ориентированных на человека и основанных на клинических данных.

arxiv arXiv cs.AI · 7 д назад

Самокоррекция повышает доверие к социальным чат-ботам

Исследование показало, что социальные чат-боты, исправляющие собственные ошибки, получают большее доверие со стороны пользователей и воспринимаются как более экспертизные, чем те, которые полагаются на внешние коррекции. Сила социальной связи между пользователем и чат-ботом усиливает изменение убеждений только тогда, когда чат-бот сам корректирует ошибки, что показывает, социальная связь усиливает эффективность коррекции ошибок.

arxiv arXiv cs.LG · 7 д назад

Обнаружение структурных искажений через сдвиги причинных механизмов

Эта статья представляет алгоритм StruBI, который выявляет скрытые смещения из-за конфликтов и выбора путем анализа сдвигов причинных механизмов в различных средах. Алгоритм формализует критерий на основе мутуальной информации для обнаружения структурных искажений и демонстрирует превосходную производительность при восстановлении искаженных переменных на синтетических и реальных данных.

arxiv arXiv cs.LG · 7 д назад

Кадр-СМ: Фреймворк для оценки неопределенности в медицинской сегментации изображений

QUAM-SM — это пост-обработочный фреймворк, который использует противоречивый поиск для выявления "противоречиво уязвимых" пикселей в медицинской сегментации изображений. Он разделяет эпистемическую и алеаторическую неопределенность и превосходит существующие методы по надежности и чувствительности к границам на публичных датасетах с экспертными аннотациями.

arxiv arXiv cs.LG · 7 д назад

Расширение системы аварийного торможения с использованием неприменяемых данных через мета-обратную связь в полуосуществленном обучении

Мета-обратная связь в полуосуществленном обучении позволяет масштабировать систему автоматического аварийного торможения с использованием огромных объемов неприменяемых данных из автопарков. Устойчивый подход снижает ошибки псевдометок и подавляет риски гиперболизации, обеспечивая соотношение 100:1 между положительными и ложными активациями и на 35% больше километров безаварийного вождения по сравнению с базовым вариантом на основе правил в реальных условиях эксплуатации.

arxiv arXiv cs.LG · 7 д назад

Выбор признаков и регуляризация Риджа в стратегической классификации

Исследование показывает, что исключение признаков на основе только их манипулируемости является неоптимальным в стратегической классификации. В исследовании разрабатывается совместный алгоритм для выбора признаков и настройки регуляризации Риджа, предлагая практическую рамку для смягчения стратегической манипуляции в системах принятия решений в здравоохранении.

arxiv arXiv cs.LG · 7 д назад

Обучение без вознаграждения на визуальных потоках

Новый подход позволяет осуществлять обучение с вознаграждением и наказанием в режиме онлайн без наличия вознаграждений от среды, используя только фиксированные визуальные пакеты. Он обеспечивает высокую точность в инференсе значений и оптимизации политики, при этом B_xi достигает точности 0,952 по сбалансированному знаку вознаграждения и общая производительность политики достигает 0,979 по точности оптимального действия в проверенных задачах, превосходя контрольные варианты, такие как нулевое вознаграждение и перемешанные цели.

arxiv arXiv cs.LG · 7 д назад

Обучение с положительными и непримечаемыми примерами для аудита оценки языковых моделей

Новый фреймворк использует обучение с положительными и непримечаемыми примерами и частичный оптимальный транспорт для аудита искажений в оценке языковых моделей. Он выравнивает положительные ответы, подтвержденные людьми, с ответами модели, не имеющими меток, в пространстве вложений, выявляя стабильные предпочтения людей и корректируя искажение избыточности без переобучения. Эксперименты показывают улучшенное соответствие с людьми, устойчивость к искажениям в представлении и интерпретируемость оценок уверенности.

arxiv arXiv cs.LG · 7 д назад

Wasserstein Policy Learning for Distributional Outcomes

Эта статья вводит офлайн-обучение политик для распределений-значений, где вознаграждения получают из функционалов полезности, применённых к водяным барицентрам. Она устанавливает статистические гарантии с использованием оценок IPW и DR, доказывая конечную выборочную регрет с доминирующим зависимостью \widetilde{\mathcal{O}}(\sqrt{\mathrm{N\text{-}dim}(\Pi)/N}) и предоставляет минимаксную нижнюю границу, подтверждающую острые характеристики этого скорости.

arxiv arXiv cs.LG · 7 д назад

XAI раскрывает ключевые факторы в европейских электрических рынках

Исследование, использующее методы SHAP и SSHAP, анализирует факторы, влияющие на цены на электроэнергию, в 39 европейских зонах торгов. Оно выявляет, что солнечная энергия оказывает превосходное влияние на цены, газ остается доминирующим фактором, а взаимосвязи подчеркивают региональную взаимозависимость. Исследование также создает синтетический единый европейский рынок для анализа полностью интегрированной сценария с едицей цены.

arxiv arXiv cs.LG · 7 д назад

Локальные сертификаты риска для обновления моделей

В статье представлены локальные сертификаты, которые обеспечивают двусторонние доверительные интервалы для увеличения риска популяции вокруг текущей модели. Верхняя граница этого интервала определяет правило обновления с контролем риска: обновление принимается только тогда, когда верхняя граница сертифицирована не положительна, в противном случае текущая модель сохраняется.

arxiv arXiv cs.LG · 7 д назад

OpenAnt: Система обнаружения уязвимостей на основе ЛЛМ

OpenAnt использует разбиение кода, противоположную проверку и динамическое тестирование для обнаружения уязвимостей в больших кодовых базах. Он снижает поверхность анализа на 97% и уменьшает количество ложноположительных результатов, при этом подтверждает находки с помощью автоматизированного, изолированного выполнения. Оценка на OpenSSL, WordPress и Flowise показывает, что OpenAnt обнаруживает ранее неизвестные уязвимости с приемлемыми затратами и масштабируемостью.

arxiv arXiv cs.CL · 7 д назад

Регулируемая оптимизация культурных предпочтений в моделях вознаграждения

Эта статья представляет SCPO — новую алгоритм для обучения моделей вознаграждения, которая сбалансирует разнообразные культурные предпочтения в подсообществах. SCPO повышает производительность моделей вознаграждения меньшинств на 7 пунктов на двух наборах данных и семи странах, при этом обеспечивая эффективность обучения на 280% выше, чем при полном тонком настройке на весь набор данных. Анализ показывает, что снижение смещения достигается за счёт оценки предпочтений подсообществ в целевых направлениях.

arxiv arXiv cs.CL · 7 д назад

Неправильная синхронизация в больших языковых моделях: количественное исследование

Новое исследование представляет VETO — бенчмарк из 2032 пар контрастных примеров, полученных из BBQ, для количественной оценки неправильной синхронизации в больших языковых моделях. В нем определяется коэффициент неправильной синхронизации (MAR) и показывает, что все проверенные большие языковые модели демонстрируют значения MAR от 4,7% до 18,9%, в то время как люди достигают 0%. Исследование показывает, что сигналы синхронизации могут усиливать эти сбои, и доказательства подавления происходят в поздних слоях моделей и появляются после тренировки по инструкциям.

arxiv arXiv cs.CL · 7 д назад

LLMs не справляются с выявлением различий между элементами в оценках чтения

Исследование показывает, что большие языковые модели не способны надёжно измерять различие между элементами в оценках чтения. Хотя некоторые модели демонстрируют слабую согласованность с человеческими калиброванными оценками — в диапазоне от 0,152 до 0-241 — текущие LLMs не достаточно отражают, как оценочные элементы различают студентов разных уровней подготовки.

arxiv arXiv cs.CL · 7 д назад

Редактирование вектора выхода снижает запоминание в языковых моделях

Новая методика, называемая редактированием вектора выхода, минимально изменяет векторы выхода нейронов MLP для подавления запомненных последовательностей в больших языковых моделях, достигая до 87,9% подавления в OLMo-7B. Этот подход превосходит нулевое изменение активаций нейронов в 2,7 раза и работает на четырех моделях с параметрами от 36 до 7B, при этом эффективность растет с увеличением размера модели и демонстрирует стабильную производительность при различных архитектурах.

arxiv arXiv cs.CL · 7 д назад

RedactionBench: Бенчмарк для контекстуальной приватности в ИИ

RedactionBench представляет ручно аннотированный бенчмарк из 200 различных документов из 11 областей для оценки приватности при удалении данных. В нем используется R-Score — метрика на уровне символов, которая равнозначно рассматривает семантически схожие варианты удаления и снижает смещение, вызванное выбором форматирования. Результаты человеческих оценок показывают значительное несогласие по вопросам контекстуального удаления (47,7% консенсуса), что подчёркивает субъективный характер приватности и обусловливает необходимость стандартизированных, контекстуально-ориентированных бенчмарков.

arxiv arXiv cs.CL · 7 д назад

Метрики на основе больших языковых моделей улучшают оценку клинической значимости в рентгенологии

Исследование представляет лёгкие, интерпретируемые метрики, которые четко выделяют клинически значимые ошибки от безвредных вариаций в рентгенологических отчётах. Эти метрики превосходят большие медицинские языковые модели и конкурируют с проприетарными моделями, при этом однократная тренировка доказана эффективной для развертывания с учётом стоимости. В двухэтапной настройке производительность не улучшается стабильно и смещается фокус с обнаружения ошибок на устойчивость.