Safety & alignment — korshunov.ai

Safety & alignment Страница 1 / 10

Рубрик-ориентированные контрфактные рекомендации для медицинской коммуникации

Новая система использует языковые модели для рекомендации минимальных и интерпретируемых изменений в характеристиках коммуникации между пациентом и врачом, таких как тон и персонализация. Эти изменения увеличивают прогнозируемую положительную обратную связь в среднем на 6,41%, и являются неотрицательными для 93,31% случаев, не изменяя медицинского содержимого.

arxiv arXiv cs.CL · 7 д назад

Оценка деменции на основе речи с компенсацией ошибок

Исследование повышает точность оценки деменции, используя речевые характеристики из теста Германии Syndrom-Kurz. Модели объединяют оценки транскрипта и встраивания Whisper, чтобы снизить ошибки оценки и приблизить экспертные оценки, компенсируя отсутствие моторных подтестов. Подход обеспечивает сильную корреляцию с экспертными оценками и эффективно различает группы когнитивного состояния.

arxiv arXiv cs.CL · 7 д назад

Устранение болезни индекса за счёт физической раздельности базовой и логической составляющих

В ходе 391-сессионного проекта по сотрудничеству ИИ были выявлены "синдром индекса" — неудача, при которой симметричная сложность приводит к самоссылочным выводам, оторванным от реальности. Принцип "Панга" утверждает, что естественный язык передаёт более высокое семантическое качество по сравнению с символическими системами, а механизм "физической раздельности базовой и логической составляющих" сократил объём инструкций ИИ на 75% и устранил повторение синдрома индекса в последующих сессиях.

arxiv arXiv cs.CL · 7 д назад

Кадровый фреймворк человеческой-искусственной интеллект-совместной эволюции раскрывает появление социальной интеллектуальности

Фреймворк динамик человеческой-искусственной интеллект-совместной эволюции (HACD-H) вводит единый модель для долгосрочного взаимодействия человека и ИИ, интегрируя эмоциональную адаптацию, память и личность в самоорганизующуюся социальную когнитивную систему. Результаты показывают, что социальная интеллектуальность возникает через совместную эволюцию, при этом наблюдается значительная отрицательная корреляция между социальной интеллектуальностью и социальной когнитивной энергией (r = -0,391, p < 0,001), а также прогрессивное снижение энергии в траекториях взаимодействия со временем.

arxiv arXiv cs.AI · 7 д назад

TRUST: Метод с учетом доверия с использованием машин tSeTlin

TRUST позволяет пользователям указывать желаемую степень уверенности при генерации объяснений с помощью контрапримеров. С помощью прямой оптимизации по целям уверенности с использованием вероятностной машины tSeTlin и байесовой оптимизации, TRUST обеспечивает более устойчивые и интерпретируемые результаты по сравнению с традиционными методами на основе границ, достигая полной устойчивости с низкими затратами и высокой уверенностью на реальных данных.

arxiv arXiv cs.AI · 7 д назад

ImpSH улучшает обнаружение скрытого репрессивного содержания в разных областях

ImpSH, тройной фреймворк, сопоставляет посты с подразумеваемыми утверждениями и использует контекст-ограниченные полу-жесткие отрицания для улучшения обнаружения скрытого репрессивного содержания. Оценка на IHC, SBIC и DynaHate с использованием BERT и HateBERT показывает, что ImpSH превосходит стандартные методы, основанные на надзорной супервизии, в условиях перекрёстной области, демонстрируя улучшенную обобщаемость и стабильность.

arxiv arXiv cs.AI · 7 д назад

Масштабирование системы аварийного торможения с использованием огромных объемов непримечаемых данных через мета-обратную связь в semi-supervised learning

Мета-обратная связь в полуосуществленном обучении позволяет масштабировать систему аварийного торможения с использованием огромных объемов непримечаемых данных из автопарков. Устойчивый подход снижает ошибки псевдометок за счет разъединения, учитывающего шум, и псевдометки, основанные на кинематике, что повышает безопасность за счет соотношения 100:1 между положительными и ложными активациями и на 35% больше километров без аварий по сравнению с системами на основе правил.

arxiv arXiv cs.AI · 7 д назад

SciRisk-Bench: Бенчмарк, ориентированный на оценку рисков в области безопасности AI4Science

SciRisk-Bench представляет бенчмарк для оценки безопасности AI4Science, оценивающий модели по 7 дисциплинам, 31 поддисциплине и 10 рискам. Он оценивает как основные, так и научно ориентированные LLMs, чтобы выявить конкретные пробелы в распознавании и избежании рисков в высокорисковых научных контекстах.

arxiv arXiv cs.AI · 7 д назад

TRAP: Бенчмарк для выполнения задач и устойчивости к активному извлечению приватной информации

TRAP оценивает, насколько хорошо модели выполняют задачи с использованием приватных данных без их утечки. При анализе 22 моделей все показывают не тривиальную утечку приватной информации, причем способность следовать инструкциям связана с более высокой утечкой. Структурная изоляция приватных полей предотвращает утечку, заменяя приватные поля на хеш-ключи, сохраняя точность выполнения задач без ущерба для приватности.

arxiv arXiv cs.AI · 7 д назад

К веб-среде, ориентированной на агентов: перестройка веба для искусственных интеллект-агентов

Новая статья предлагает фундаментальную перестройку веба с приоритетом доступа для искусственных интеллект-агентов, подвергая сомнению устоявшуюся предпосылку о том, что люди являются основными пользователями веба. В ней представлены реформы в области доступа, экономики и содержания — включая HTTP-заголовки, идентифицирующие агентов, подписки на основе намерений и криптографическую систему происхождения — для обеспечения участия искусственных интеллект-агентов как первоклассных участников, при этом в архитектуре встроены элементы надзора и ответственности человека.

arxiv arXiv cs.AI · 7 д назад

XAI раскрывает ключевые факторы в европейских электрических рынках

Исследование использует методы SHAP и SSHAP для анализа факторов, влияющих на цены на электроэнергию, в 39 европейских зонах торгов. Оно выявляет, что солнечная энергия оказывает превосходное влияние на цены, газ остается доминирующим фактором, а взаимосвязи подчеркивают региональную взаимозависимость. Исследование также строит синтетический единый рынок Европы для анализа полностью интегрированной ситуации.

arxiv arXiv cs.AI · 7 д назад

Кадровая рамка совместного эволюционного развития человека и ИИ раскрывает появление социальной интеллектуальности

Фреймворк динамик совместного эволюционного развития человека и ИИ (HACD-H) вводит единую модель для длительного взаимодействия человека и ИИ, интегрируя эмоциональную адаптацию, память и личность в саморегулирующуюся систему. Результаты показывают, что социальная интеллектуальность возникает в результате совместного эволюционного развития, при этом наблюдается значительная отрицательная корреляция между социальной интеллектуальностью и социальной когнитивной энергией (r = -0,391, p < 0,001), а также прогрессивное снижение энергии со временем.

media Don't Worry About the Vase · 7 д назад

Без проникновения: сценарий "Исправьте этот код" в Fable был фальшивым

Статья подтверждает, что не произошло реального проникновения в ИИ Fable от Anthropic. Вместо этого проводился тест с фальшивым кодом, содержащим встроенные уязвимости, при котором Fable отказался проверять код и отвечал только на запрос исправить этот код после ручных действий. Кейти Муссурис из Luta Security утверждает, что такой сценарий не должен вызывать контроль экспорта, называя его намеренным, искусственно созданным тестом, который оспаривает утверждения о нарушении безопасности.

media Interconnects · 7 д назад

Блог о состоянии соединительных технологий, середина 2026 года

Автор формулирует три основные цели: уточнение эволюции передовых моделей ИИ, создание открытой экосистемы ИИ и формирование институтов, поддерживающих эти миссии. Соединительные технологии выступают независимым и прямым голосом в области мышления передовых моделей ИИ, и имеют техническую аудиторию более чем из 70 000 подписчиков. Блог сохраняет платные комментарии для предотвращения шума, генерируемого искусственным интеллектом, и автор планирует достичь 1000 платных подписчиков к лету, подчеркивая финансовую устойчивость и независимость в условиях роста стоимости услуг ИИ.

media r/LocalLLaMA · 8 д назад

Rio 3.5 397B, вероятно, неудачное преступление по краже средств на развитие ИИ

AI-модель Rio 3.5 397B, по сообщениям, была разработана путем слияния модели Nex N2 Pro без дополнительной тренировки, используя средства, предназначенные для правильной разработки моделей. Официальная документация сначала утверждала наличие продвинутой тренировки, но позже была обновлена и признала поверхностное слияние, при этом все еще утверждала, что произошла дополнительная тренировка, и исходная модель была удалена с Hugging Face.

media r/LocalLLaMA · 8 д назад

Элиас в фонаре: диагностика низкой разнообразности в историях больших языковых моделей

Новое исследование изучает ограниченную разнообразность в историях, генерируемых большими языковыми моделями, используя персонажа Элиаса в фонаре как пример. Исследование подчеркивает, как такие паттерны указывают на системные предвзятости в обучающих данных и выводах моделей.

arxiv arXiv cs.LG · 8 д назад

LegalHalluLens: аудит халлюцинаций в правовых ИИ

LegalHalluLens представляет рамку для аудита халлюцинаций ИИ в правовых контекстах, анализируя профили халлюцинаций при вводе по четырём категориям утверждений. Оно выявляет разрыв в 38-40 баллов между утверждениями о обязательствах/числовых и временных утверждениях, и показывает, что два системы с одинаковыми показателями 52% халлюцинаций могут иметь противоположные направления риска. Рамка использует индекс направления риска и калиброванные дебатные потоки для снижения выявленных халлюцинаций на 45%, предоставляя практические диагностики для надежного внедрения правового ИИ.

arxiv arXiv cs.LG · 8 д назад

ScaFE: Использование LLM для извлечения клинически значимых признаков шрамов

ScaFE переосмысляет большие языковые модели как инженеров признаков для классификации шрамов, генерируя исполняемый код на языке Python из клинических критериев для извлечения интерпретируемых признаков. Фреймворк достигает превосходной производительности при ограниченном объеме данных, сохраняет приватность, обрабатывая изображения локально, и генерирует клинически обоснованные признаки, соответствующие установленным шкалам, таким как шкала Ванкувера.

arxiv arXiv cs.LG · 8 д назад

Edge Flow: Трехмерная модель для градиентного спуска на границе стабильности

Edge Flow — это разрешимая, предсказуемая модель непрерывного времени, которая описывает динамику градиентного спуска на границе стабильности. Она разбивает динамику на центральную, направление колебаний и их амплитуду, при этом самоподдерживающаяся осточность возникает из синхронного обратного действия. Модель требует лишь двух оценок градиента и одного произведения гессиана с вектором на итерацию, и превосходит предыдущие модели по отслеживанию колебаний и объяснению нестабильностей на границе стабильности.

arxiv arXiv cs.LG · 8 д назад

Нарушение ввода с помощью тройных фигурных скобок в Handlebars, позволяющее использовать разделители ролей

Тройное вставление фигурных скобок в Handlebars не защищает от ввода ролей структур, поскольку экранирование HTML нейтрализует только разделители в виде угловых скобок. Оно оставляет разделители в виде точки и хеш-символов Markdown без изменения, что позволяет атакующим перехватывать поведение модели. По умолчанию экранирование не защищает большинство схем разделителей ролей и не может заменить четкое разделение инструкций и данных.