Safety & alignment — korshunov.ai

Safety & alignment Страница 1 / 11

Локальные сертификаты риска для обновления моделей

В статье представлены локальные сертификаты, которые обеспечивают двусторонние доверительные интервалы для увеличения риска популяции вокруг текущей модели. Верхняя граница этого интервала определяет правило обновления с контролем риска: обновление принимается только тогда, когда верхняя граница сертифицирована не положительна, в противном случае текущая модель сохраняется.

arxiv arXiv cs.LG · 7 д назад

OpenAnt: Система обнаружения уязвимостей на основе ЛЛМ

OpenAnt использует разбиение кода, противоположную проверку и динамическое тестирование для обнаружения уязвимостей в больших кодовых базах. Он снижает поверхность анализа на 97% и уменьшает количество ложноположительных результатов, при этом подтверждает находки с помощью автоматизированного, изолированного выполнения. Оценка на OpenSSL, WordPress и Flowise показывает, что OpenAnt обнаруживает ранее неизвестные уязвимости с приемлемыми затратами и масштабируемостью.

arxiv arXiv cs.CL · 7 д назад

Регулируемая оптимизация культурных предпочтений в моделях вознаграждения

Эта статья представляет SCPO — новую алгоритм для обучения моделей вознаграждения, которая сбалансирует разнообразные культурные предпочтения в подсообществах. SCPO повышает производительность моделей вознаграждения меньшинств на 7 пунктов на двух наборах данных и семи странах, при этом обеспечивая эффективность обучения на 280% выше, чем при полном тонком настройке на весь набор данных. Анализ показывает, что снижение смещения достигается за счёт оценки предпочтений подсообществ в целевых направлениях.

arxiv arXiv cs.CL · 7 д назад

Неправильная синхронизация в больших языковых моделях: количественное исследование

Новое исследование представляет VETO — бенчмарк из 2032 пар контрастных примеров, полученных из BBQ, для количественной оценки неправильной синхронизации в больших языковых моделях. В нем определяется коэффициент неправильной синхронизации (MAR) и показывает, что все проверенные большие языковые модели демонстрируют значения MAR от 4,7% до 18,9%, в то время как люди достигают 0%. Исследование показывает, что сигналы синхронизации могут усиливать эти сбои, и доказательства подавления происходят в поздних слоях моделей и появляются после тренировки по инструкциям.

arxiv arXiv cs.CL · 7 д назад

LLMs не справляются с выявлением различий между элементами в оценках чтения

Исследование показывает, что большие языковые модели не способны надёжно измерять различие между элементами в оценках чтения. Хотя некоторые модели демонстрируют слабую согласованность с человеческими калиброванными оценками — в диапазоне от 0,152 до 0-241 — текущие LLMs не достаточно отражают, как оценочные элементы различают студентов разных уровней подготовки.

arxiv arXiv cs.CL · 7 д назад

Редактирование вектора выхода снижает запоминание в языковых моделях

Новая методика, называемая редактированием вектора выхода, минимально изменяет векторы выхода нейронов MLP для подавления запомненных последовательностей в больших языковых моделях, достигая до 87,9% подавления в OLMo-7B. Этот подход превосходит нулевое изменение активаций нейронов в 2,7 раза и работает на четырех моделях с параметрами от 36 до 7B, при этом эффективность растет с увеличением размера модели и демонстрирует стабильную производительность при различных архитектурах.

arxiv arXiv cs.CL · 7 д назад

RedactionBench: Бенчмарк для контекстуальной приватности в ИИ

RedactionBench представляет ручно аннотированный бенчмарк из 200 различных документов из 11 областей для оценки приватности при удалении данных. В нем используется R-Score — метрика на уровне символов, которая равнозначно рассматривает семантически схожие варианты удаления и снижает смещение, вызванное выбором форматирования. Результаты человеческих оценок показывают значительное несогласие по вопросам контекстуального удаления (47,7% консенсуса), что подчёркивает субъективный характер приватности и обусловливает необходимость стандартизированных, контекстуально-ориентированных бенчмарков.

arxiv arXiv cs.CL · 7 д назад

Метрики на основе больших языковых моделей улучшают оценку клинической значимости в рентгенологии

Исследование представляет лёгкие, интерпретируемые метрики, которые четко выделяют клинически значимые ошибки от безвредных вариаций в рентгенологических отчётах. Эти метрики превосходят большие медицинские языковые модели и конкурируют с проприетарными моделями, при этом однократная тренировка доказана эффективной для развертывания с учётом стоимости. В двухэтапной настройке производительность не улучшается стабильно и смещается фокус с обнаружения ошибок на устойчивость.

arxiv arXiv cs.CL · 7 д назад

ImpSH улучшает обнаружение скрытого религиозного спектра в разных областях

ImpSH, тройной подход, сопоставляет посты с подразумеваемыми утверждениями и использует контекст-ограниченные полу-жесткие отрицания для улучшения обнаружения скрытого религиозного спектра. Оценки на IHC, SBIC и DynaHate показывают, что ImpSH превосходит стандартные методы поддержки супервизированного контрастного обучения в условиях перекрёстной области, обеспечивая более стабильные представления и снижая количество ложных отрицаний при сдвигах областей.

arxiv arXiv cs.CL · 7 д назад

Рубрик-ориентированные контрфактные рекомендации для медицинской коммуникации

Новая система использует языковые модели для рекомендации минимальных и интерпретируемых изменений в характеристиках коммуникации между пациентом и врачом, таких как тон и персонализация. Эти изменения увеличивают прогнозируемую положительную обратную связь в среднем на 6,41%, и являются неотрицательными для 93,31% случаев, не изменяя медицинского содержимого.

arxiv arXiv cs.CL · 7 д назад

Оценка деменции на основе речи с компенсацией ошибок

Исследование повышает точность оценки деменции, используя речевые характеристики из теста Германии Syndrom-Kurz. Модели объединяют оценки транскрипта и встраивания Whisper, чтобы снизить ошибки оценки и приблизить экспертные оценки, компенсируя отсутствие моторных подтестов. Подход обеспечивает сильную корреляцию с экспертными оценками и эффективно различает группы когнитивного состояния.

arxiv arXiv cs.CL · 7 д назад

Устранение болезни индекса за счёт физической раздельности базовой и логической составляющих

В ходе 391-сессионного проекта по сотрудничеству ИИ были выявлены "синдром индекса" — неудача, при которой симметричная сложность приводит к самоссылочным выводам, оторванным от реальности. Принцип "Панга" утверждает, что естественный язык передаёт более высокое семантическое качество по сравнению с символическими системами, а механизм "физической раздельности базовой и логической составляющих" сократил объём инструкций ИИ на 75% и устранил повторение синдрома индекса в последующих сессиях.

arxiv arXiv cs.CL · 7 д назад

Кадровый фреймворк человеческой-искусственной интеллект-совместной эволюции раскрывает появление социальной интеллектуальности

Фреймворк динамик человеческой-искусственной интеллект-совместной эволюции (HACD-H) вводит единый модель для долгосрочного взаимодействия человека и ИИ, интегрируя эмоциональную адаптацию, память и личность в самоорганизующуюся социальную когнитивную систему. Результаты показывают, что социальная интеллектуальность возникает через совместную эволюцию, при этом наблюдается значительная отрицательная корреляция между социальной интеллектуальностью и социальной когнитивной энергией (r = -0,391, p < 0,001), а также прогрессивное снижение энергии в траекториях взаимодействия со временем.

arxiv arXiv cs.AI · 7 д назад

TRUST: Метод с учетом доверия с использованием машин tSeTlin

TRUST позволяет пользователям указывать желаемую степень уверенности при генерации объяснений с помощью контрапримеров. С помощью прямой оптимизации по целям уверенности с использованием вероятностной машины tSeTlin и байесовой оптимизации, TRUST обеспечивает более устойчивые и интерпретируемые результаты по сравнению с традиционными методами на основе границ, достигая полной устойчивости с низкими затратами и высокой уверенностью на реальных данных.

arxiv arXiv cs.AI · 7 д назад

ImpSH улучшает обнаружение скрытого репрессивного содержания в разных областях

ImpSH, тройной фреймворк, сопоставляет посты с подразумеваемыми утверждениями и использует контекст-ограниченные полу-жесткие отрицания для улучшения обнаружения скрытого репрессивного содержания. Оценка на IHC, SBIC и DynaHate с использованием BERT и HateBERT показывает, что ImpSH превосходит стандартные методы, основанные на надзорной супервизии, в условиях перекрёстной области, демонстрируя улучшенную обобщаемость и стабильность.

arxiv arXiv cs.AI · 7 д назад

Масштабирование системы аварийного торможения с использованием огромных объемов непримечаемых данных через мета-обратную связь в semi-supervised learning

Мета-обратная связь в полуосуществленном обучении позволяет масштабировать систему аварийного торможения с использованием огромных объемов непримечаемых данных из автопарков. Устойчивый подход снижает ошибки псевдометок за счет разъединения, учитывающего шум, и псевдометки, основанные на кинематике, что повышает безопасность за счет соотношения 100:1 между положительными и ложными активациями и на 35% больше километров без аварий по сравнению с системами на основе правил.

arxiv arXiv cs.AI · 7 д назад

SciRisk-Bench: Бенчмарк, ориентированный на оценку рисков в области безопасности AI4Science

SciRisk-Bench представляет бенчмарк для оценки безопасности AI4Science, оценивающий модели по 7 дисциплинам, 31 поддисциплине и 10 рискам. Он оценивает как основные, так и научно ориентированные LLMs, чтобы выявить конкретные пробелы в распознавании и избежании рисков в высокорисковых научных контекстах.

arxiv arXiv cs.AI · 7 д назад

TRAP: Бенчмарк для выполнения задач и устойчивости к активному извлечению приватной информации

TRAP оценивает, насколько хорошо модели выполняют задачи с использованием приватных данных без их утечки. При анализе 22 моделей все показывают не тривиальную утечку приватной информации, причем способность следовать инструкциям связана с более высокой утечкой. Структурная изоляция приватных полей предотвращает утечку, заменяя приватные поля на хеш-ключи, сохраняя точность выполнения задач без ущерба для приватности.

arxiv arXiv cs.AI · 7 д назад

К веб-среде, ориентированной на агентов: перестройка веба для искусственных интеллект-агентов

Новая статья предлагает фундаментальную перестройку веба с приоритетом доступа для искусственных интеллект-агентов, подвергая сомнению устоявшуюся предпосылку о том, что люди являются основными пользователями веба. В ней представлены реформы в области доступа, экономики и содержания — включая HTTP-заголовки, идентифицирующие агентов, подписки на основе намерений и криптографическую систему происхождения — для обеспечения участия искусственных интеллект-агентов как первоклассных участников, при этом в архитектуре встроены элементы надзора и ответственности человека.

arxiv arXiv cs.AI · 7 д назад

XAI раскрывает ключевые факторы в европейских электрических рынках

Исследование использует методы SHAP и SSHAP для анализа факторов, влияющих на цены на электроэнергию, в 39 европейских зонах торгов. Оно выявляет, что солнечная энергия оказывает превосходное влияние на цены, газ остается доминирующим фактором, а взаимосвязи подчеркивают региональную взаимозависимость. Исследование также строит синтетический единый рынок Европы для анализа полностью интегрированной ситуации.