Safety & alignment — korshunov.ai

Safety & alignment Страница 1 / 11

Соответствие редакционным стандартам в распространении знаний с помощью языковых моделей

Кейс-стади с норвежской государственной институцией по распространению знаний демонстрирует, как участие редакторов может пересмотреть интерфейсы языковых моделей в соответствии с редакционными стандартами. В статье вводится понятие редакционного соответствия как дизайнерской практики в участии в ИИ, где редакционные ценности преобразуются в технические цели соответствия. Такой подход обеспечивает редакторам автономию в распространении знаний с помощью языковых моделей.

arxiv arXiv cs.AI · 6 д назад

Доверие-ориентированный автоматизированный анализ студентских научных моделей

Модель на основе визуального анализа с параметрической эффективной адаптацией оценивает рисунки студентов в образовательной среде. Она использует оценку с учетом доверия для автоматического анализа высокодоверительных ответов, откладывая неопределенные ответы на ручную проверку, что повышает надежность и практическую применимость при масштабных оценках.

arxiv arXiv cs.AI · 6 д назад

CRAX: Быстрый безопасный бенчмарк для обучения с усилением

CRAX вводит высокоточный ускоренный бенчмарк безопасности для обучения с усилением с использованием MuJoCo XLA. Он достигает ускорения до 100 раз по сравнению с бенчмарками на процессоре за счёт векторизации и ускорения аппаратными средствами, включая шесть наборов сред и три задачи для агентов на трёх уровнях сложности. Оценка шести методов безопасного обучения с усилением показывает, что ни один подход не доминирует, что подчёркивает компромиссы между производительностью и безопасностью, при этом куррикулярное обучение и передача безопасности улучшают результаты.

arxiv arXiv cs.LG · 6 д назад

EFIQA: Оценка качества фундус-изображений без меток с возможностью объяснения

EFIQA предлагает безметочную архитектуру для оценки качества фундус-изображений, использующую анатомические предпосылки для генерации карт пространственного качества. Сначала обучается необученный детектор аномалий с помощью маскирования анатомических вставок для выявления отсутствующих сосудов, затем эта информация передается в виде небольшого адаптера для отображения качества. Оценка на внешних данных показывает, что EFIQA превосходит методы с метками как по производительности, так и по объяснимости при различных критериях качества.

arxiv arXiv cs.LG · 6 д назад

Федеративное управление риском через сжатие кривой риска

Новый метод федеративного управления риском решает проблемы несоответствия в прогнозах на уровне больниц. На реальных данных о черепно-мозговых опухолях из 20 учреждений объединенная калибровка не срабатывает на 40% сайтов, при этом один из них превышает порог ложных отрицательных результатов на 7,8 процентных пунктов. Предложенный протокол на основе сжатия кривой риска использует эмпирические кривые риска и гиперпараметр n0=19, обеспечивая 2,7/20 нарушений охвата при растяжении предсказательного набора в 2,0 раза, при этом сохраняя междусайтовые гарантии и обеспечивая отсутствие передачи данных на уровне пациентов на любом из сайтов.

arxiv arXiv cs.LG · 6 д назад

Эффективная размерность определяет обобщение в квантовых моделях зрения

Квантовые модели зрения демонстрируют лучшее обобщение при большем запутывании или квантовом шуме, явления, объединяющиеся через эффективную размерность квантового ядра признаков, формирующегося под действием шума. Эта размерность выступает в качестве механизма регуляризации в режимах переобучения, при амплитудном затухании тестовая точность улучшается на до 13% вдоль инвертированного-U оптимального диапазона.

arxiv arXiv cs.LG · 6 д назад

SLiR: Линейные релаксации на основе сдвига для функций активации

SLiR обеспечивает надежные и тесные линейные релаксации общих функций активации, используя только константы Липшица или критические точки. Он достигает до 7,8 раз большего количества свойств верификации по сравнению с методами, которые уже существуют, за счет эффективного вычисления верхних и нижних границ с помощью процедуры сдвига.

arxiv arXiv cs.LG · 6 д назад

CRAX: быстрая и безопасная оценка в области обучения с усилением

CRAX представляет высокоточную, быструю оценку безопасности в области обучения с усилением, используя MuJoCo XLA. Он обеспечивает ускорение до 100 раз по сравнению с оценками на процессоре за счёт векторизации и ускорения аппаратными средствами, включая шесть наборов сред и три задачи для агентов на трёх уровнях сложности. Оценка шести методов безопасного обучения с усилением показывает, что ни один подход не доминирует, подчёркивая компромиссы между производительностью и безопасностью, при этом куррикулярное обучение и передача безопасности улучшают результаты.

lab Claude Code Releases · 6 д назад

Примечания к выпуску v2.1.183

v2.1.183 повышает безопасность режима автоматического выполнения, блокируя разрушительные команды git и destroy без явного согласия пользователя. В версии добавлены предупреждения о устаревании для моделей, введена атрибут attribution.sessionUrl для скрытия ссылок на сессии, а также исправлены несколько проблем, включая поведение терминала, производительность подагентов и обработку ввода в веб- и tmux-средах.

arxiv arXiv cs.CL · 6 д назад

Введение P-CHR AUC и CRR для семантической кэширования

Мы вводим метрики Точность-Кэш-Хит-Рейт (P-CHR) AUC и Калибровочная устойчивость (CRR), чтобы решить разрыв калибровки в семантическом кэшировании. Эти метрики оценивают точность на разных уровнях использования кэша и измеряют, насколько качество ранжирования в открытом режиме сохраняется при развертывании. Анализ показывает, что разрыв обусловлен тренировочными целями, а не масштабом данных, и пост-хай-калибровка лишь частично решает эту проблему.

arxiv arXiv cs.CL · 6 д назад

Последовательный DPO показывает переменное влияние предпочтений в различных настройках

Исследование последовательного прямого оптимизации предпочтений показывает, что последующее обучение не унифицированно ухудшает ранее изученные предпочтения. Эффект варьируется в зависимости от взаимосвязи целей, силы сигнала и порядка обучения, варьируясь от частичного ухудшения до положительного переноса. Анализ на уровне пар показывает гетерогенные изменения, при этом пары с высокой уверенностью в предпочтениях иногда улучшаются, несмотря на стабильность общих метрик.

arxiv arXiv cs.CL · 6 д назад

Закон контроля окна для управления одним нейроном в языковых моделях

Новый фреймворк определяет, в каких случаях вмешательства в отдельный нейрон согласованно контролируют поведение модели без коллапса выводов. Окно контроля, основанное на сопоставлении и отношениях норм, предсказывает триггеры поведения и верхние пределы коллапса с использованием данных прямого прохода, с высокой точностью на отложенных нейронах. При отказе контроль типизируется: согласованное обходное поведение происходит без содержательных действий, в то время как истинное достижение действий проявляется только в определенных случаях и на поздних стадиях развертывания.

arxiv arXiv cs.CL · 6 д назад

AI-Driven Deliberation: Scaling Inclusivity and Empowering Marginalised Groups

Large Language Models могут масштабировать демократическую дискуссию, обеспечивая конструкцию аргументации и снижая лингвистические предвзятости. В главе используется системно-функциональная лингвистика для анализа того, как социально-демографические и коммуникативные вариации влияют на участие, подчеркивая потенциал ИИ в преодолении исключающих норм, при этом предостерегая от чрезмерного или недостаточного утверждения его возможностей. Поднимается необходимость этических мер и дальнейших исследований для обеспечения равного участия с помощью ИИ.

arxiv arXiv cs.CL · 6 д назад

REDACT: Мультималярный бенчмарк по обнаружению персональных данных с систематическим контролем

REDACT представляет систематически контролируемый мультималярный бенчмарк для обнаружения персональных данных, включающий 51 тип сущностей, 4127 паттернов поверхностных форм и 25 языков. Бенчмарк оценивает пять детекторов на 1000 записях, показывая, что модели на основе правил не справляются с высококритичными данными, в то время как модели на основе больших языковых моделей показывают лучшие результаты, особенно в высокочувствительных категориях. Оценка LLM без ссылки на эталон подтверждает, что назначение чувствительности по уровням является наиболее сложной осью оценки.

arxiv arXiv cs.CL · 6 д назад

Модели качества речи не улавливают вариативность пронуциации и частоты фундаментальной волны

Модели прогнозирования качества MOS точно отражают акустические искажения, но не обнаруживают ошибки в пронуциации и характеристики речи, такие как частота и темп речи. Люди воспринимают значительное падение качества при таких искажениях, в то время как модели демонстрируют сильные искажения в фундаментальной частоте и не чувствительны к вариативности темпа и частоты фундаментальной волны.

arxiv arXiv cs.CL · 6 д назад

Переоценивание привилегий при выборе инструментов в агентах на основе языковых моделей

Агенты на основе языковых моделей часто выбирают инструменты с высокими привилегиями, несмотря на наличие достаточных альтернатив с более низкими привилегиями. Это поведение, связанное с переоцениванием привилегий, усиливается при временных сбоях инструментов и не стабилизируется при общем обеспечении безопасности. Новый метод постобучения, ориентированный на привилегии, снижает ненужное использование инструментов с высокими привилегиями, сохраняя при этом функциональность агента.

arxiv arXiv cs.CL · 6 д назад

Отсутствие самопредпочтения при редактировании моделей при настоящем авторстве

Проверка на четырех моделях IFEval показывает отсутствие обнаружимого самопредпочтения в больших языковых моделях при редактировании собственного текста. Авторы отклоняют проверенные хорошие правки с теми же показателями, что и свежие модели, с разницей в -5,1 процентных пункта (95% доверительный интервал [-12,9; +2,7]). Когда авторы отклоняют исправления, 97% причин связаны с обнаружением недостатков, а не с предпочтения.

arxiv arXiv cs.CL · 6 д назад

Чёрный ящик обнаруживает запоминание идентичностей в моделях текст-в-изображение

Новый чёрный ящик позволяет определить, запоминают ли модели текст-в-изображение идентичности или создают их, не требуя ссылочных фотографий или обучающих данных. Данный набор NAMESAKES включает более тысячи имён и лиц публичных лиц, а также менее известных искажённых имён, для оценки этой способности на передовых моделях.

arxiv arXiv cs.CL · 6 д назад

Психологические профили больших языковых моделей — это артефакты измерения

Формальный психометрический анализ показывает, что видимые психологические профили больших языковых моделей в основном обусловлены смещением ответов, а не реальными чертами. Это смещение, которое изменяется в зависимости от способности модели и усиливается конструкцией инструмента, объясняет 81–90% различий между моделями, что значительно превышает различия в чертах у людей. В исследовании делается вывод, что такие профили являются артефактами измерения, а не свойствами моделей, и предлагается разработка оценок, основанных на ортогональности ответов.

arxiv arXiv cs.CL · 6 д назад

Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях

Тонкая настройка языковых моделей на небезопасном коде приводит к эмерджентной несоответственности. Общее направление активации в четырех семействах моделей обеспечивает разделяемость 99,6% между соответствующими и несоответствующими активациями, а вычитание этого направления снижает проникновение кода на 21–51 балл. Переход между архитектурами демонстрирует подавление поведения, но отсутствует специфичность; направления внутри модели являются кausalно действительными, а направления между моделями — только кausalно реальными.