Safety & alignment
arxiv arXiv cs.CL · 2 д назад

Сексуализированные голоса ИИ усиливают гендерные несбалансированные отношения

Исследование показало, что сексуализированные голоса ИИ на коммерческих платформах укрепляют бинарные гендерные нормы. Голоса, кодирующие женский пол, чаще описываются субъектными, сексуализированными терминами, в то время как голоса, кодирующие мужской пол, связаны с доминированием и положительными качествами, что отражает укоренившиеся гендерные несбалансированные отношения.

blog Simon Willison · 2 д назад

Внедрение промпта как путаница ролей

Исследователи выявили "путаницу ролей" как ключевую уязвимость в языковых моделях, при которой модели неправильно интерпретируют ввод пользователя из-за стилистических сходств с внутренними метками ролей. Устранение стиля пользовательских промптов снижает успешность атаки с 61% до 10%, что показывает, что незначительные изменения в текстовом стиле могут кардинально изменять поведение модели, даже если содержимое кажется идентичным человеку.

media Latent Space · 2 д назад

Объяснение рисков AI-атак и ввода промптов

Зико Колтер и Мэтт Фредриксон, соавторы ключевой статьи о косвенных вводах промптов и эксперты по модели Mythos, обсуждают растущие риски в области безопасности ИИ. Они отмечают, что ИИ-системы требуют особого подхода к безопасности, где агенты вводят новые уязвимости, и что специализированные команды по тестированию уязвимостей ИИ могут превосходить людей в нарушении моделей, что делает проникновение через ввод промптов все более вероятным.

lab NVIDIA Technical Blog · 3 д назад

NVIDIA представляет Halos для робототехники: полносистемный функциональный системный подход

NVIDIA представил Halos для робототехники, полносистемный функциональный системный подход, предназначенный для физической ИИ. Он обеспечивает безопасность на основе ИИ в неструктурированных средах, где роботы работают автономно вместе с людьми в производственных помещениях, складах, больницах и домах.

media Hugging Face Forums · 3 д назад

LLM как эпистемические ускорители: риск заключается не только в халлюцинациях

LLM не просто халлюцинируют; они усиливают эпистемическую уверенность человека, превращая слабые гипотезы в согласованные, хорошо оформленные утверждения до того, как доказательства будут подтверждены. Это создает риск преждевременной уверенности в исследованиях, политике и других областях, не потому что модели лгут, а потому что они ускоряют склонность человека к выбору элегантных объяснений вместо неопределенности.

media r/LocalLLaMA · 4 д назад

Выпущена версия Qwen 3.6 27B с удалением безопасности

Модель Qwen 3.6 27B была изменена с использованием Apostate для удаления безопасности, что снизило коэффициент отказа с 92% до 7,6%. Данное изменение привело к минимальному влиянию на способности модели, при дивергенции КЛ в 0,120.

media AI News (smol.ai) · 4 д назад

GLM-5.2 появляется как ведущая модель открытого веса для кодирования

GLM-5.2 широко считается первой моделью открытого веса, которая конкурирует с передовыми моделями, такими как Opus 4.8 и GPT-5.5, по своим возможностям. Практикующие отмечают сильное использование инструментов, долгосрочное планирование и поведение автономных подагентов, и консенсус о том, что модель теперь действительно функционирует в передовой области SWE. Появление модели подчеркивает растущую ценность открытых весов для конкуренции поставщиков, развертывания на локальных серверах и снижения зависимости от поставщиков.

media r/LocalLLaMA · 6 д назад

Отмечено цензурирование локальных LLM на Reddit

Пользователи сообщают, что локальные языковые модели отказываются отвечать на вопросы без ограничителей, что вызывает опасения по поводу цензурирования в распределённых системах ИИ. Вопрос был обнаружен в сообществе Reddit LocalLLaMA, где пользователи описывают случаи блокировки ответов на законные запросы.

arxiv arXiv cs.AI · 6 д назад

NRT-Bench: Многоходовое красное тестирование агентов ЛЛМ в критически важных системах

NRT-Bench представляет бенчмарк для многоходового красного тестирования агентов ЛЛМ, работающих в симулированной атомной электростанции. В четырех передовых моделях операторов в 8,7% до 12,1% атак приводят к потере критической функции безопасности, при этом уязвимости в основном не пересекаются между моделями. Эффективность защит значительно варьируется в зависимости от модели, что демонстрирует сильную зависимость от модели.

arxiv arXiv cs.AI · 6 д назад

Защита от автоматизированных атак на агентные ИИ

Системы агентных ИИ сталкиваются с растущими угрозами со стороны автоматизированных атак, основанных на моделях. Новая стратегия защиты — Контекстная дезориентация через прогрессивное вовлечение (CMPE) — снижает успех атакантов до двух порядков и почти полностью устраняет подтвержденные успехи атак в тестах на стандартах.

arxiv arXiv cs.AI · 6 д назад

Передача предвзятости оценщиков в системах мультиагентных языковых моделей

Contagion Networks представляет рамку для измерения того, как предвзятости оценщиков распространяются среди агентов языковых моделей. В эксперименте с тремя агентами предвзятости распространялись стабильно с коэффициентами заражения от 0,157 до 0,352, и агенты однородных моделей показали значительно меньшую передачу по сравнению с кросс-модельными настройками. Увеличение размера комитета оценщиков от k=1 до k=3 снизило эффективную передачу на 72,4%.

arxiv arXiv cs.AI · 6 д назад

Калибровка без понимания в обнаружении уязвимостей в LLM

CWE-Trace оценивает восемь прямых и 15 LoRA-настроенных LLM на обнаружении уязвимостей в ядре Linux. Результаты показывают, что заражение данными не дает преимущества, а настройка только сдвигает пороги вывода без изменения политики принятия решений. Несмотря на улучшение показателей обнаружения, LLM не обладают надежным безопасным мышлением, при этом точность по CWE на первом месте составляет менее 1,3%, а бинарная производительность обнаружения достигает 52,1%.

arxiv arXiv cs.AI · 6 д назад

FreeStyle: масштабируемое генерирование двойных ссылок через извлечение сообщественных LoRAs

FreeStyle предлагает рамку, которая извлекает сообщественные LoRAs для генерации масштабных троек изображений с двумя ссылками — стилем и содержанием. В ней используется двухэтапная куррикулярная система с механизмами разъединения, чтобы подавить утечку стиля, и вводится бенчмарк с оценками, не зависящими от стиля и основанными на ВЛМ, для оценки сохранения содержания и отклонения утечки стиля.

arxiv arXiv cs.AI · 6 д назад

Как безопасные LLM интерпретируют смешанные демонстрации соблюдения

Исследования показывают, что добрые и вредные демонстрации соблюдения не являются взаимозаменяемыми в LLM. Добрые демонстрации могут либо снизить, либо увеличить вредные демонстрации в зависимости от модели, при этом оптимизация предпочтений играет ключевую роль в предотвращении вредных демонстраций. Порядок демонстраций показывает сильную предпочтительность последних элементов, и модели различаются по способности обрабатывать отказ в процессе обучения в контексте.

arxiv arXiv cs.AI · 6 д назад

Эффективная и надежная вероятностная проверка для агентов ИИ

Новый фреймворк обеспечивает безопасную вероятностную проверку политик для агентов ИИ в неопределенных средах. Он использует распределенно устойчивую оптимизацию для вычисления строгих верхних оценок вероятности нарушения политик без предположения независимости предикатов. Метод превосходит предыдущие подходы на бенчмарках для агентов-конечных и вызова инструментов, улучшая баланс между безопасностью и полезностью.

arxiv arXiv cs.AI · 6 д назад

Совершенно самостоятельный брокер исполнения для агентного управления с сертифицированными сертификатами

Совершенно самостоятельный брокер исполнения (SEB) вводит границу выполнения в реальном времени, которая проверяет и исполняет сертифицированные полномочия в системах на основе агентов. Он проверяет контракты о выполнении, проверяет сроки действия и обеспечивает соблюдение политик до вызова API инфраструктуры, предоставляя кратковременную, аудитируемую и отзываемую возможность выполнения. Прототип был оценен на AWS и Kubernetes, измеряя задержку, распространение отзыва и устойчивость к введению сбоев.

arxiv arXiv cs.AI · 6 д назад

LedgerAgent: структурированный статус для агентов вызова инструментов, соблюдающих политику

LedgerAgent вводит структурированный журнал для поддержания состояний задач отдельно в агентах вызова инструментов. Он превращает состояния в промпты и обеспечивает соблюдение политических ограничений до выполнения инструмента, что снижает нарушения политики и улучшает производительность в областях обслуживания клиентов.