Safety & alignment — korshunov.ai

Safety & alignment Страница 1 / 10

Редактирование вектора выхода снижает запоминание в языковых моделях

Новая методика, называемая редактированием вектора выхода, минимально изменяет векторы выхода нейронов MLP для подавления запомненных последовательностей в больших языковых моделях, достигая до 87,9% подавления в OLMo-7B. Этот подход превосходит нулевое изменение активаций нейронов в 2,7 раза и работает на четырех моделях с параметрами от 36 до 7B, при этом эффективность растет с увеличением размера модели и демонстрирует стабильную производительность при различных архитектурах.

arxiv arXiv cs.CL · 7 д назад

RedactionBench: Бенчмарк для контекстуальной приватности в ИИ

RedactionBench представляет ручно аннотированный бенчмарк из 200 различных документов из 11 областей для оценки приватности при удалении данных. В нем используется R-Score — метрика на уровне символов, которая равнозначно рассматривает семантически схожие варианты удаления и снижает смещение, вызванное выбором форматирования. Результаты человеческих оценок показывают значительное несогласие по вопросам контекстуального удаления (47,7% консенсуса), что подчёркивает субъективный характер приватности и обусловливает необходимость стандартизированных, контекстуально-ориентированных бенчмарков.

arxiv arXiv cs.CL · 7 д назад

Метрики на основе больших языковых моделей улучшают оценку клинической значимости в рентгенологии

Исследование представляет лёгкие, интерпретируемые метрики, которые четко выделяют клинически значимые ошибки от безвредных вариаций в рентгенологических отчётах. Эти метрики превосходят большие медицинские языковые модели и конкурируют с проприетарными моделями, при этом однократная тренировка доказана эффективной для развертывания с учётом стоимости. В двухэтапной настройке производительность не улучшается стабильно и смещается фокус с обнаружения ошибок на устойчивость.

arxiv arXiv cs.CL · 7 д назад

ImpSH улучшает обнаружение скрытого религиозного спектра в разных областях

ImpSH, тройной подход, сопоставляет посты с подразумеваемыми утверждениями и использует контекст-ограниченные полу-жесткие отрицания для улучшения обнаружения скрытого религиозного спектра. Оценки на IHC, SBIC и DynaHate показывают, что ImpSH превосходит стандартные методы поддержки супервизированного контрастного обучения в условиях перекрёстной области, обеспечивая более стабильные представления и снижая количество ложных отрицаний при сдвигах областей.

arxiv arXiv cs.CL · 7 д назад

Рубрик-ориентированные контрфактные рекомендации для медицинской коммуникации

Новая система использует языковые модели для рекомендации минимальных и интерпретируемых изменений в характеристиках коммуникации между пациентом и врачом, таких как тон и персонализация. Эти изменения увеличивают прогнозируемую положительную обратную связь в среднем на 6,41%, и являются неотрицательными для 93,31% случаев, не изменяя медицинского содержимого.

arxiv arXiv cs.CL · 7 д назад

Оценка деменции на основе речи с компенсацией ошибок

Исследование повышает точность оценки деменции, используя речевые характеристики из теста Германии Syndrom-Kurz. Модели объединяют оценки транскрипта и встраивания Whisper, чтобы снизить ошибки оценки и приблизить экспертные оценки, компенсируя отсутствие моторных подтестов. Подход обеспечивает сильную корреляцию с экспертными оценками и эффективно различает группы когнитивного состояния.

arxiv arXiv cs.CL · 7 д назад

Устранение болезни индекса за счёт физической раздельности базовой и логической составляющих

В ходе 391-сессионного проекта по сотрудничеству ИИ были выявлены "синдром индекса" — неудача, при которой симметричная сложность приводит к самоссылочным выводам, оторванным от реальности. Принцип "Панга" утверждает, что естественный язык передаёт более высокое семантическое качество по сравнению с символическими системами, а механизм "физической раздельности базовой и логической составляющих" сократил объём инструкций ИИ на 75% и устранил повторение синдрома индекса в последующих сессиях.

arxiv arXiv cs.CL · 7 д назад

Кадровый фреймворк человеческой-искусственной интеллект-совместной эволюции раскрывает появление социальной интеллектуальности

Фреймворк динамик человеческой-искусственной интеллект-совместной эволюции (HACD-H) вводит единый модель для долгосрочного взаимодействия человека и ИИ, интегрируя эмоциональную адаптацию, память и личность в самоорганизующуюся социальную когнитивную систему. Результаты показывают, что социальная интеллектуальность возникает через совместную эволюцию, при этом наблюдается значительная отрицательная корреляция между социальной интеллектуальностью и социальной когнитивной энергией (r = -0,391, p < 0,001), а также прогрессивное снижение энергии в траекториях взаимодействия со временем.

arxiv arXiv cs.AI · 7 д назад

TRUST: Метод с учетом доверия с использованием машин tSeTlin

TRUST позволяет пользователям указывать желаемую степень уверенности при генерации объяснений с помощью контрапримеров. С помощью прямой оптимизации по целям уверенности с использованием вероятностной машины tSeTlin и байесовой оптимизации, TRUST обеспечивает более устойчивые и интерпретируемые результаты по сравнению с традиционными методами на основе границ, достигая полной устойчивости с низкими затратами и высокой уверенностью на реальных данных.

arxiv arXiv cs.AI · 7 д назад

ImpSH улучшает обнаружение скрытого репрессивного содержания в разных областях

ImpSH, тройной фреймворк, сопоставляет посты с подразумеваемыми утверждениями и использует контекст-ограниченные полу-жесткие отрицания для улучшения обнаружения скрытого репрессивного содержания. Оценка на IHC, SBIC и DynaHate с использованием BERT и HateBERT показывает, что ImpSH превосходит стандартные методы, основанные на надзорной супервизии, в условиях перекрёстной области, демонстрируя улучшенную обобщаемость и стабильность.

arxiv arXiv cs.AI · 7 д назад

Масштабирование системы аварийного торможения с использованием огромных объемов непримечаемых данных через мета-обратную связь в semi-supervised learning

Мета-обратная связь в полуосуществленном обучении позволяет масштабировать систему аварийного торможения с использованием огромных объемов непримечаемых данных из автопарков. Устойчивый подход снижает ошибки псевдометок за счет разъединения, учитывающего шум, и псевдометки, основанные на кинематике, что повышает безопасность за счет соотношения 100:1 между положительными и ложными активациями и на 35% больше километров без аварий по сравнению с системами на основе правил.

arxiv arXiv cs.AI · 7 д назад

SciRisk-Bench: Бенчмарк, ориентированный на оценку рисков в области безопасности AI4Science

SciRisk-Bench представляет бенчмарк для оценки безопасности AI4Science, оценивающий модели по 7 дисциплинам, 31 поддисциплине и 10 рискам. Он оценивает как основные, так и научно ориентированные LLMs, чтобы выявить конкретные пробелы в распознавании и избежании рисков в высокорисковых научных контекстах.

arxiv arXiv cs.AI · 7 д назад

TRAP: Бенчмарк для выполнения задач и устойчивости к активному извлечению приватной информации

TRAP оценивает, насколько хорошо модели выполняют задачи с использованием приватных данных без их утечки. При анализе 22 моделей все показывают не тривиальную утечку приватной информации, причем способность следовать инструкциям связана с более высокой утечкой. Структурная изоляция приватных полей предотвращает утечку, заменяя приватные поля на хеш-ключи, сохраняя точность выполнения задач без ущерба для приватности.

arxiv arXiv cs.AI · 7 д назад

К веб-среде, ориентированной на агентов: перестройка веба для искусственных интеллект-агентов

Новая статья предлагает фундаментальную перестройку веба с приоритетом доступа для искусственных интеллект-агентов, подвергая сомнению устоявшуюся предпосылку о том, что люди являются основными пользователями веба. В ней представлены реформы в области доступа, экономики и содержания — включая HTTP-заголовки, идентифицирующие агентов, подписки на основе намерений и криптографическую систему происхождения — для обеспечения участия искусственных интеллект-агентов как первоклассных участников, при этом в архитектуре встроены элементы надзора и ответственности человека.

arxiv arXiv cs.AI · 7 д назад

XAI раскрывает ключевые факторы в европейских электрических рынках

Исследование использует методы SHAP и SSHAP для анализа факторов, влияющих на цены на электроэнергию, в 39 европейских зонах торгов. Оно выявляет, что солнечная энергия оказывает превосходное влияние на цены, газ остается доминирующим фактором, а взаимосвязи подчеркивают региональную взаимозависимость. Исследование также строит синтетический единый рынок Европы для анализа полностью интегрированной ситуации.

arxiv arXiv cs.AI · 7 д назад

Кадровая рамка совместного эволюционного развития человека и ИИ раскрывает появление социальной интеллектуальности

Фреймворк динамик совместного эволюционного развития человека и ИИ (HACD-H) вводит единую модель для длительного взаимодействия человека и ИИ, интегрируя эмоциональную адаптацию, память и личность в саморегулирующуюся систему. Результаты показывают, что социальная интеллектуальность возникает в результате совместного эволюционного развития, при этом наблюдается значительная отрицательная корреляция между социальной интеллектуальностью и социальной когнитивной энергией (r = -0,391, p < 0,001), а также прогрессивное снижение энергии со временем.

media Don't Worry About the Vase · 7 д назад

Без проникновения: сценарий "Исправьте этот код" в Fable был фальшивым

Статья подтверждает, что не произошло реального проникновения в ИИ Fable от Anthropic. Вместо этого проводился тест с фальшивым кодом, содержащим встроенные уязвимости, при котором Fable отказался проверять код и отвечал только на запрос исправить этот код после ручных действий. Кейти Муссурис из Luta Security утверждает, что такой сценарий не должен вызывать контроль экспорта, называя его намеренным, искусственно созданным тестом, который оспаривает утверждения о нарушении безопасности.

media Interconnects · 8 д назад

Блог о состоянии соединительных технологий, середина 2026 года

Автор формулирует три основные цели: уточнение эволюции передовых моделей ИИ, создание открытой экосистемы ИИ и формирование институтов, поддерживающих эти миссии. Соединительные технологии выступают независимым и прямым голосом в области мышления передовых моделей ИИ, и имеют техническую аудиторию более чем из 70 000 подписчиков. Блог сохраняет платные комментарии для предотвращения шума, генерируемого искусственным интеллектом, и автор планирует достичь 1000 платных подписчиков к лету, подчеркивая финансовую устойчивость и независимость в условиях роста стоимости услуг ИИ.

media r/LocalLLaMA · 8 д назад

Rio 3.5 397B, вероятно, неудачное преступление по краже средств на развитие ИИ

AI-модель Rio 3.5 397B, по сообщениям, была разработана путем слияния модели Nex N2 Pro без дополнительной тренировки, используя средства, предназначенные для правильной разработки моделей. Официальная документация сначала утверждала наличие продвинутой тренировки, но позже была обновлена и признала поверхностное слияние, при этом все еще утверждала, что произошла дополнительная тренировка, и исходная модель была удалена с Hugging Face.

media r/LocalLLaMA · 8 д назад

Элиас в фонаре: диагностика низкой разнообразности в историях больших языковых моделей

Новое исследование изучает ограниченную разнообразность в историях, генерируемых большими языковыми моделями, используя персонажа Элиаса в фонаре как пример. Исследование подчеркивает, как такие паттерны указывают на системные предвзятости в обучающих данных и выводах моделей.