Safety & alignment — korshunov.ai

Safety & alignment Страница 1 / 11

OTTER: Система красного тестирования для оптимизации промптов, избегающих токсичность

OTTER — это черный ящик, система красного тестирования, которая обходит фильтры токсичности, изменяя не более пяти токенов. Оценка проводилась на 457 промптах AdvBench по четырем моделям GPT, что привело к росту успешности проникновения в систему с 7,0% до 84,0%, что представляет первую количественную аналитику взаимосвязей избегания токсичности и практические рекомендации по укреплению классификаторов.

arxiv arXiv cs.CL · 2 д назад

Валидационно-ограниченный механизм анализа выявления суицидальных состояний в LLMs

Валидационно-ограниченная система оценивает внутренние характеристики LLM только после наблюдения за поведением, выявляя средний слой признака, который причинно вносит вклад в выявление суицидальных состояний. Этот признак является семантическим, низкого ранга, межмодельным и специфичным для суицидальных состояний по сравнению с общими состояниями тревоги, хотя направление его регулирования необходимо, но недостаточно. Паттерн показывает, что меньшие модели кодируют суицидальные состояния, но только более крупные модели реагируют на них, при этом доказательства ограничены английским текстом реддит-форумов.

arxiv arXiv cs.CL · 2 д назад

Исследование показало, что ИИ всё ещё несётся обнаруживать халцинации в юридических цитатах

Новое исследование показывает, что более 1000 юридических документов содержат вымышленные цитаты, количество которых ежегодно растёт. Проверка пяти ИИ-моделей показывает улучшение производительности, при этом GPT-5 достигает 82,8% точности и 60,5% F1 в агентных условиях, однако все модели сталкиваются с трудностями в обнаружении тонких ошибок и сталкиваются с ограничениями из-за ограниченного доступа к информации.

arxiv arXiv cs.CL · 2 д назад

MedLayXPlain: Оценка разрыва между экспертными и непрофессиональными знаниями в медицинских моделях визуально-языковых

MedLayXPlain представляет первый масштабный бенчмарк для генерации медицинских непрофессиональных языковых образцов, содержащий 122 789 образцов с региональной привязкой в восьми модальностях изображений. Он оценивает медицинские модели визуально-языковых систем на согласованности между экспертными и непрофессиональными знаниями с использованием иерархической системы онтологии и лёгкого оценщика, выявляя систематический разрыв: экспертный уровень производительности при описании изображений сопровождается значительным снижением в непрофессиональной речи, при этом общие модели не обладают клинической точностью.

arxiv arXiv cs.CL · 2 д назад

Слушаемые интерпретируемые векторы речевых эмбеддингов

LISE разлагает векторы речевых эмбеддингов на интерпретируемые компоненты без аннотаций. Эксперименты с прослушиванием показывают, что участники испытаний правильно различают говорящих с точностью 83,9%, что подтверждает интерпретируемость компонент при сохранении производительности в области распознавания речи.

arxiv arXiv cs.CL · 2 д назад

Сексуализированные голоса ИИ усиливают гендерные несбалансированные отношения

Исследование показало, что сексуализированные голоса ИИ на коммерческих платформах укрепляют бинарные гендерные нормы. Голоса, кодирующие женский пол, чаще описываются субъектными, сексуализированными терминами, в то время как голоса, кодирующие мужской пол, связаны с доминированием и положительными качествами, что отражает укоренившиеся гендерные несбалансированные отношения.

blog Simon Willison · 2 д назад

Внедрение промпта как путаница ролей

Исследователи выявили "путаницу ролей" как ключевую уязвимость в языковых моделях, при которой модели неправильно интерпретируют ввод пользователя из-за стилистических сходств с внутренними метками ролей. Устранение стиля пользовательских промптов снижает успешность атаки с 61% до 10%, что показывает, что незначительные изменения в текстовом стиле могут кардинально изменять поведение модели, даже если содержимое кажется идентичным человеку.

media Latent Space · 3 д назад

Объяснение рисков AI-атак и ввода промптов

Зико Колтер и Мэтт Фредриксон, соавторы ключевой статьи о косвенных вводах промптов и эксперты по модели Mythos, обсуждают растущие риски в области безопасности ИИ. Они отмечают, что ИИ-системы требуют особого подхода к безопасности, где агенты вводят новые уязвимости, и что специализированные команды по тестированию уязвимостей ИИ могут превосходить людей в нарушении моделей, что делает проникновение через ввод промптов все более вероятным.

lab OpenAI News · 3 д назад

OpenAI представил инструменты безопасности Daybreak

OpenAI представил Codex Security и GPT-5.5-Cyber как часть своей системы Daybreak. Эти инструменты направлены на то, чтобы помочь организациям выявлять, проверять и устранять уязвимости в масштабе.

lab NVIDIA Technical Blog · 3 д назад

NVIDIA представляет Halos для робототехники: полносистемный функциональный системный подход

NVIDIA представил Halos для робототехники, полносистемный функциональный системный подход, предназначенный для физической ИИ. Он обеспечивает безопасность на основе ИИ в неструктурированных средах, где роботы работают автономно вместе с людьми в производственных помещениях, складах, больницах и домах.

media Hugging Face Forums · 3 д назад

LLM как эпистемические ускорители: риск заключается не только в халлюцинациях

LLM не просто халлюцинируют; они усиливают эпистемическую уверенность человека, превращая слабые гипотезы в согласованные, хорошо оформленные утверждения до того, как доказательства будут подтверждены. Это создает риск преждевременной уверенности в исследованиях, политике и других областях, не потому что модели лгут, а потому что они ускоряют склонность человека к выбору элегантных объяснений вместо неопределенности.

media r/LocalLLaMA · 4 д назад

Выпущена версия Qwen 3.6 27B с удалением безопасности

Модель Qwen 3.6 27B была изменена с использованием Apostate для удаления безопасности, что снизило коэффициент отказа с 92% до 7,6%. Данное изменение привело к минимальному влиянию на способности модели, при дивергенции КЛ в 0,120.

lab Google DeepMind Blog · 4 д назад

План управления ИИ для безопасности внутренних систем

Внедрен план управления ИИ для обеспечения безопасности внутренних систем за счёт интеграции традиционных мер защиты с возможностями реального времени мониторинга.

media AI News (smol.ai) · 4 д назад

GLM-5.2 появляется как ведущая модель открытого веса для кодирования

GLM-5.2 широко считается первой моделью открытого веса, которая конкурирует с передовыми моделями, такими как Opus 4.8 и GPT-5.5, по своим возможностям. Практикующие отмечают сильное использование инструментов, долгосрочное планирование и поведение автономных подагентов, и консенсус о том, что модель теперь действительно функционирует в передовой области SWE. Появление модели подчеркивает растущую ценность открытых весов для конкуренции поставщиков, развертывания на локальных серверах и снижения зависимости от поставщиков.

media r/LocalLLaMA · 6 д назад

Оценка или оценка-маркетинг?

Оценка LLM все чаще воспринимается как маркетинг, а не объективная оценка. Пользователи задают вопросы о том, какие оценки действительно значимы для локальных моделей, а не поверхностные утверждения на основе баллов.

media r/LocalLLaMA · 6 д назад

Отмечено цензурирование локальных LLM на Reddit

Пользователи сообщают, что локальные языковые модели отказываются отвечать на вопросы без ограничителей, что вызывает опасения по поводу цензурирования в распределённых системах ИИ. Вопрос был обнаружен в сообществе Reddit LocalLLaMA, где пользователи описывают случаи блокировки ответов на законные запросы.

arxiv arXiv cs.AI · 6 д назад

NRT-Bench: Многоходовое красное тестирование агентов ЛЛМ в критически важных системах

NRT-Bench представляет бенчмарк для многоходового красного тестирования агентов ЛЛМ, работающих в симулированной атомной электростанции. В четырех передовых моделях операторов в 8,7% до 12,1% атак приводят к потере критической функции безопасности, при этом уязвимости в основном не пересекаются между моделями. Эффективность защит значительно варьируется в зависимости от модели, что демонстрирует сильную зависимость от модели.

arxiv arXiv cs.AI · 6 д назад

Защита от автоматизированных атак на агентные ИИ

Системы агентных ИИ сталкиваются с растущими угрозами со стороны автоматизированных атак, основанных на моделях. Новая стратегия защиты — Контекстная дезориентация через прогрессивное вовлечение (CMPE) — снижает успех атакантов до двух порядков и почти полностью устраняет подтвержденные успехи атак в тестах на стандартах.

arxiv arXiv cs.AI · 6 д назад

Передача предвзятости оценщиков в системах мультиагентных языковых моделей

Contagion Networks представляет рамку для измерения того, как предвзятости оценщиков распространяются среди агентов языковых моделей. В эксперименте с тремя агентами предвзятости распространялись стабильно с коэффициентами заражения от 0,157 до 0,352, и агенты однородных моделей показали значительно меньшую передачу по сравнению с кросс-модельными настройками. Увеличение размера комитета оценщиков от k=1 до k=3 снизило эффективную передачу на 72,4%.

arxiv arXiv cs.AI · 6 д назад

Калибровка без понимания в обнаружении уязвимостей в LLM

CWE-Trace оценивает восемь прямых и 15 LoRA-настроенных LLM на обнаружении уязвимостей в ядре Linux. Результаты показывают, что заражение данными не дает преимущества, а настройка только сдвигает пороги вывода без изменения политики принятия решений. Несмотря на улучшение показателей обнаружения, LLM не обладают надежным безопасным мышлением, при этом точность по CWE на первом месте составляет менее 1,3%, а бинарная производительность обнаружения достигает 52,1%.