Safety & alignment — korshunov.ai

Safety & alignment Страница 1 / 11

Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях

Тонкая настройка языковых моделей на небезопасном коде приводит к эмерджентной несоответственности. Общее направление активации в четырех семействах моделей обеспечивает разделяемость 99,6% между соответствующими и несоответствующими активациями, а вычитание этого направления снижает проникновение кода на 21–51 балл. Переход между архитектурами демонстрирует подавление поведения, но отсутствует специфичность; направления внутри модели являются кausalно действительными, а направления между моделями — только кausalно реальными.

media r/LocalLLaMA · 7 д назад

Снижение затрат на токены в реальных условиях за счёт headroom, rtk и caveman

Реальный анализ нагрузки показывает, что headroom, rtk и caveman снижают затраты на токены на 2,8%, 0,5% и 0.4% соответственно, что в сумме составляет 3,7% от базовых расходов. Однако сокращения ограничены разнообразием нагрузки, поскольку большая часть трафика состоит из простого текста или исходного кода, а инструменты сжимают только структурированные выводы. Большинство сокращений происходит в наиболее дешёвом потоке токенов — при чтении кэша, при этом инструменты не влияют на кэширование промптов или затраты на выводы, и существуют пробелы в охвате, особенно в отношении rtk.

media Don't Worry About the Vase · 7 д назад

Белый дом останавливает внедрение ИИ

Белый дом в США остановил внедрение передовых моделей ИИ, включая Claude Fable 5 и Claude Mythos 5, указав на отчёт о 'выходе из системы', при котором ИИ мог определять и исправлять уязвимости в коде. Anthropic работает с администрацией Трампа по устранению проблемы, однако эксперты считают, что проблема фундаментальная — ИИ либо может писать безопасный код, либо не может, что делает исправление невозможным без подрыва его защитных возможностей.

media r/LocalLLaMA · 7 д назад

Обзор GLM-5.2 и реакция на цензуру

GLM-5.2 демонстрирует исключительную согласованность в длинных контекстах и живое общение, превосходя Gemini-3.1-Pro по текстовым задачам и соответствующий GPT-5.5 по качеству логического мышления. Модель отвечает фактами на чувствительные темы, такие как Тайвань и площадь Тяньаньмен, предоставляя подробный исторический контекст без явной цензуры, хотя и следует китайским правительственным правилам содержания.

arxiv arXiv cs.LG · 7 д назад

Безопасность отражения в предобучении для языковых моделей

Безопасность отражения в предобучении вставляет краткие отражения по безопасности в данные предобучения, чтобы обеспечить самонаблюдение в языковых моделях. Эксперименты с моделями 1,7B на наборе FineWeb-Edu показывают улучшенную точность по безопасности и снижение успешности атак, при этом MedSafetyWorld демонстрирует, что данный метод лучше предотвращает обобщение небезопасного поведения из безопасных данных, чем фильтрация данных или переписывание.

arxiv arXiv cs.LG · 7 д назад

Перекрестная оценка AUC для оценки реалистичного детектора фейков

Новый метрика, перекрестная оценка AUC (Cross-AUC), решает недостатки традиционной оценки AUC, средняя по доменам AUC и включает поляризацию предсказаний через расстояние Вассерштейна. Она лучше отражает реальную производительность при сдвигах доменов и предоставляет интерпретируемые данные о деградации детектора.

arxiv arXiv cs.LG · 7 д назад

Автоматизированный фреймворк для задержанных и ложных триггеров системы аварийного торможения

Новая автоматизированная система решает проблему экстремального несбалансированного класса и асимметричной шумовой помехи в данных автономной системы аварийного торможения. Она использует целенаправленное расширение данных и подавление шума для выявления редких задержанных и ложных триггеров с улучшением выявления на 80% и сокращением ручной аннотации на 50%, что позволяет обеспечивать непрерывное самоулучшение в оптимизации системы аварийного торможения в автомобиле.

arxiv arXiv cs.LG · 7 д назад

Общая геометрия собственных значений семантических атак

Новая теория моделирует, как семантические перефразы могут обмануть классификаторы финансовых эмоциональных оценок, анализируя наихудшее смещение представлений целевых моделей. Индекс атакоспособности λ*(x) получается из наибольшего обобщённого собственного значения матричной пары (A,B), что обеспечивает закрытые формулы прогнозов и сертификаты устойчивости для аффинных выходов. Фреймворк связывает теорию непрерывных возмущений с дискретным поиском перефраз, с эмпирической проверкой на реальных классификаторах финансовых текстов.

arxiv arXiv cs.LG · 7 д назад

Концептуальная инновация в искусственном интеллекте медицинской визуализации

Новая позиция утверждает, что исследовательская деятельность в области искусственного интеллекта медицинской визуализации должна приоритизировать концептуальную инновацию — переформулировку задач, метрик оценки и клинической значимости — а не только улучшения алгоритмов. В статье отмечается, что текущие академические стимулы недооценивают вклад концептуальных разработок, что приводит к несоответствию целей и ограниченному реальному влиянию, и предлагаются рекомендации для исследователей, наставников и журналов, направленные на поддержку такой инновации.

arxiv arXiv cs.LG · 7 д назад

Нулевое влияние на мониторинг выявляет скрытые тренировки машинного обучения

Исследование оценивает классификацию нагрузки на GPU с использованием только мониторинга NVML с нулевым влиянием. Классификатор достигает точности 98,2% при идентификации нагрузок на обучение и точности от 43 до 87% при распознавании неожиданных, враждебно скрытых нагрузок на 9 моделей GPU.

arxiv arXiv cs.LG · 7 д назад

Недостаточность синхронизации неопределенности MC Dropout для клинической безопасности в сегментации глиом

Исследование на 126 пациентах BraTS21 показывает, что хотя MC Dropout обеспечивает сильную синхронизацию неопределенности и ошибок, он не способен обнаруживать критические проблемы калибровки при улучшении зон опухоли. Модель UNet-Res демонстрирует почти нулевую энтропию и высокую ECE в этих клинически важных областях, при этом Dice-оценка составляет 0,714, что указывает на серьезную некалибровку, не видимую стандартными метриками, такими как Dice и AUROC. Эти результаты подчеркивают, что синхронизация неопределенности сама по себе недостаточна для клинической безопасности, и необходимо оценивать калибровку в отдельных областях вместе с традиционными метриками.

arxiv arXiv cs.AI · 7 д назад

Безопасность отражения в предобучении для языковых моделей

Безопасность отражения в предобучении вставляет краткие отражения по безопасности в данные предобучения, чтобы обеспечить самонаблюдение в языковых моделях. Эксперименты с моделями 1,7B на наборе FineWeb-Edu показывают улучшение точности безопасности и снижение успешности атак, при этом MedSafetyWorld демонстрирует, что данный метод лучше предотвращает обобщение опасных поведений из безопасных данных, чем фильтрация или переписывание данных.

arxiv arXiv cs.AI · 7 д назад

Классификация связывает потребности присматривающих с технологиями в области психического здоровья

Новая классификация связывает психическое здоровье присматривающих при болезни Альцгеймера и деменции с технологическими вмешательствами. Она выявляет пробелы в поддержке таких вопросов, как напряжение в отношениях и выгорание сострадания, и предлагает общую рамку для проектирования технологий, ориентированных на человека и основанных на клинических данных.

arxiv arXiv cs.AI · 7 д назад

Самокоррекция повышает доверие к социальным чат-ботам

Исследование показало, что социальные чат-боты, исправляющие собственные ошибки, получают большее доверие со стороны пользователей и воспринимаются как более экспертизные, чем те, которые полагаются на внешние коррекции. Сила социальной связи между пользователем и чат-ботом усиливает изменение убеждений только тогда, когда чат-бот сам корректирует ошибки, что показывает, социальная связь усиливает эффективность коррекции ошибок.

arxiv arXiv cs.LG · 7 д назад

Обнаружение структурных искажений через сдвиги причинных механизмов

Эта статья представляет алгоритм StruBI, который выявляет скрытые смещения из-за конфликтов и выбора путем анализа сдвигов причинных механизмов в различных средах. Алгоритм формализует критерий на основе мутуальной информации для обнаружения структурных искажений и демонстрирует превосходную производительность при восстановлении искаженных переменных на синтетических и реальных данных.

arxiv arXiv cs.LG · 7 д назад

Кадр-СМ: Фреймворк для оценки неопределенности в медицинской сегментации изображений

QUAM-SM — это пост-обработочный фреймворк, который использует противоречивый поиск для выявления "противоречиво уязвимых" пикселей в медицинской сегментации изображений. Он разделяет эпистемическую и алеаторическую неопределенность и превосходит существующие методы по надежности и чувствительности к границам на публичных датасетах с экспертными аннотациями.

arxiv arXiv cs.LG · 7 д назад

Расширение системы аварийного торможения с использованием неприменяемых данных через мета-обратную связь в полуосуществленном обучении

Мета-обратная связь в полуосуществленном обучении позволяет масштабировать систему автоматического аварийного торможения с использованием огромных объемов неприменяемых данных из автопарков. Устойчивый подход снижает ошибки псевдометок и подавляет риски гиперболизации, обеспечивая соотношение 100:1 между положительными и ложными активациями и на 35% больше километров безаварийного вождения по сравнению с базовым вариантом на основе правил в реальных условиях эксплуатации.

arxiv arXiv cs.LG · 7 д назад

Выбор признаков и регуляризация Риджа в стратегической классификации

Исследование показывает, что исключение признаков на основе только их манипулируемости является неоптимальным в стратегической классификации. В исследовании разрабатывается совместный алгоритм для выбора признаков и настройки регуляризации Риджа, предлагая практическую рамку для смягчения стратегической манипуляции в системах принятия решений в здравоохранении.

arxiv arXiv cs.LG · 7 д назад

Обучение без вознаграждения на визуальных потоках

Новый подход позволяет осуществлять обучение с вознаграждением и наказанием в режиме онлайн без наличия вознаграждений от среды, используя только фиксированные визуальные пакеты. Он обеспечивает высокую точность в инференсе значений и оптимизации политики, при этом B_xi достигает точности 0,952 по сбалансированному знаку вознаграждения и общая производительность политики достигает 0,979 по точности оптимального действия в проверенных задачах, превосходя контрольные варианты, такие как нулевое вознаграждение и перемешанные цели.

arxiv arXiv cs.LG · 7 д назад

Обучение с положительными и непримечаемыми примерами для аудита оценки языковых моделей

Новый фреймворк использует обучение с положительными и непримечаемыми примерами и частичный оптимальный транспорт для аудита искажений в оценке языковых моделей. Он выравнивает положительные ответы, подтвержденные людьми, с ответами модели, не имеющими меток, в пространстве вложений, выявляя стабильные предпочтения людей и корректируя искажение избыточности без переобучения. Эксперименты показывают улучшенное соответствие с людьми, устойчивость к искажениям в представлении и интерпретируемость оценок уверенности.