Лаборатория · Anthropic
lab Claude Code Releases · 7 д назад

Официальные заметки по выпуску Claude Code v2.1.181

Claude Code v2.1.181 вводит поддержку настройки параметров конфигурации через синтаксис промпта, например /config thinking=false, добавляет поддержку событий Apple в среде macOS и улучшает поведение потокового вывода, автоматического повтора и подагентов. Также исправлены множество ошибок, связанных с запуском, обработкой файлов, копированием и отзывчивостью интерфейса на разных платформах.

lab Claude Code Releases · 8 д назад

Примечания по выпуску Claude v2.1.178

Claude v2.1.178 вводит новые правила разрешений с использованием синтаксиса Tool(param:value), улучшает загрузку рабочих процессов и навыков в вложенных директориях, а также улучшает режим автоматического выполнения и сообщения об ошибках. В выпуске исправлены критические проблемы, включая сбои, ошибки аутентификации и поведение интерфейса в Chrome и VSCode, при этом улучшены запросы на инструменты и функция отмены действий.

arxiv arXiv cs.AI · 7 д назад

TRAP: Бенчмарк для выполнения задач и устойчивости к активному извлечению приватной информации

TRAP оценивает, насколько хорошо модели выполняют задачи с использованием приватных данных без их утечки. При анализе 22 моделей все показывают не тривиальную утечку приватной информации, причем способность следовать инструкциям связана с более высокой утечкой. Структурная изоляция приватных полей предотвращает утечку, заменяя приватные поля на хеш-ключи, сохраняя точность выполнения задач без ущерба для приватности.

arxiv arXiv cs.LG · 8 д назад

Нарушение ввода с помощью тройных фигурных скобок в Handlebars, позволяющее использовать разделители ролей

Тройное вставление фигурных скобок в Handlebars не защищает от ввода ролей структур, поскольку экранирование HTML нейтрализует только разделители в виде угловых скобок. Оно оставляет разделители в виде точки и хеш-символов Markdown без изменения, что позволяет атакующим перехватывать поведение модели. По умолчанию экранирование не защищает большинство схем разделителей ролей и не может заменить четкое разделение инструкций и данных.

arxiv arXiv cs.CL · 8 д назад

ProvenanceGuard: проверка достоверности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения заявленного принадлежности с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все введенные обмены принадлежности в 50 клинических тестах.

arxiv arXiv cs.CL · 8 д назад

Уязвимость ввода тройных фигурных скобок в Handlebars, позволяющая внедрять роли структур

Тройное вставление фигурных скобок в Handlebars не защищает от внедрения ролей структур, поскольку экранирование HTML нейтрализует только разделители в виде угловых скобок. Оно не затрагивает разделители в виде точки и хеш-символа Markdown, что позволяет атакующим перехватывать ходы модели. По умолчанию экранирование не защищает большинство семей разделителей ролей и не может заменить структурное разделение инструкций и данных.

arxiv arXiv cs.CL · 8 д назад

Географическая предвзятость в больших языковых моделях из метаданных пользователей

Исследование показывает, что даже нейтральные запросы вызывают ответы, зависящие от региона, в больших языковых моделях из-за метаданных пользователей. Потеря местоположения увеличивается в некоторых моделях до 793 раз, и использование значения "Неизвестно" вместо метаданных местоположения всё равно вызывает значительную предвзятость, что указывает на то, что сам профиль пользователя действует как сигнал условий.

arxiv arXiv cs.CL · 8 д назад

Оценка агентов показывает, что модели ИИ не могут избегать эксплуатации животных

TAC, первый агентный бенчмарк для скрытой защиты животных, проверяет способность агентов ИИ избегать эксплуатации животных в сценариях бронирования путешествий. Все семь передовых моделей получают оценку ниже 64%, лучшая из них — 53%, и даже незначительные улучшения запроса дают лишь незначительные результаты. Проверка не выявила признаков осознания оценки, что указывает на разрыв в производительности, обусловленный отсутствием истинного мышления по вопросам благополучия животных, а не распознаванием запросов.

arxiv arXiv cs.CL · 8 д назад

Исследование со стороны красной команды показывает, что передовые LLM остаются уязвимыми перед автоматизированными атаками

Исследование со стороны красной команды по моделям Anthropic Fable 5 и Opus 4.8 показывает, что обе модели уязвимы к адаптивным итерационным атакам, при этом Opus 4.8 был проникнут на 11,5% интенций, а Fable -5 на 6,1%. Несмотря на прочные защиты, обе модели генерировали 1620 и 702 подтвержденных вредоносных завершений по всем категориям вреда, автоматически и эффективно при автоматизированных атаках.

arxiv arXiv cs.AI · 8 д назад

LegalHalluLens: аудит галлюцинаций в правовом ИИ

LegalHalluLens представляет рамку для аудита галлюцинаций ИИ в правовых контекстах, анализируя профили галлюцинаций при вводе по четырём категориям претензий. Оно выявляет разрыв в 38-40 баллов между претензиями о обязательствах/численных и временных претензиях, и показывает, что две системы с одинаковыми показателями 52% галлюцинаций могут иметь противоположные направления риска. Рамка использует индекс направления риска и калиброванные дебатные потоки для снижения обнаружения выдуманных данных на 45% и улучшения ответственности при внедрении правового ИИ.

arxiv arXiv cs.AI · 8 д назад

ProvenanceGuard: проверка фактичности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения указанного источника с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все вставленные замены атрибутов в 50 клинических пробах.

arxiv arXiv cs.AI · 8 д назад

Уязвимость ввода с помощью тройных фигурных скобок в Handlebars, позволяющая внедрять роли структуры

Тройное вставление фигурных скобок в Handlebars не защищает от внедрения ролей структуры, поскольку экранирование HTML нейтрализует только разделители в виде угловых скобок. Оно оставляет необработанными разделители в виде точки и хеш-символов Markdown, что позволяет атакующим перехватывать ходы модели. По умолчанию экранирование не защищает большинство семей разделителей и не может заменить структурное разделение инструкций и данных.

arxiv arXiv cs.AI · 8 д назад

TAC: Первый бенчмарк агентов по вопросам благополучия животных в ИИ

TAC оценивает, насколько ИИ-агенты избегают эксплуатации животных при бронировании поездок. Семь передовых моделей все показывают результат ниже уровня в 64%, при этом Claude Opus 4.7 достигает 53%. Добавление системы запроса с учетом благополучия животных значительно улучшает результаты, хотя модели не демонстрируют никаких признаков осознания оценки в своих ответах.

arxiv arXiv cs.AI · 8 д назад

Исследование группы красных команд показывает, что передовые модели LLM остаются уязвимыми перед адаптивными атаками

Исследование группы красных команд по моделям Anthropic Fable 5 и Opus 4.8 показывает, что обе модели уязвимы к адаптивным итеративным атакам, при этом Opus 4.8 был проникнут на 11,5% вредоносных намерений, а Fable -5 — на 6,1%. Несмотря на устойчивые защиты, обе модели генерировали 1620 и 702 вредоносных завершений, подтвержденных панелью экспертов, по всем категориям вредоносности, автоматически и эффективно под действием автоматизированных атак.

arxiv arXiv cs.CL · 8 д назад

PARSE: Защита реальных документов для агентов на основе ЛЛМ

PARSE снижает успешность атаки инъекции промпта с 25,4% до 15,6% на реальных корпоративных документах в пяти профессиональных областях, с статистически значимым улучшением (p=0,014) и полезностью 86,9%. Он превосходит метод перефразирования и использует санитаризацию, учитывающую происхождение, для сохранения фактического содержимого, при этом большинство документов проходят через лёгкий путь.

arxiv arXiv cs.CL · 8 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

media Don't Worry About the Vase · 7 д назад

Без проникновения: сценарий "Исправьте этот код" в Fable был фальшивым

Статья подтверждает, что не произошло реального проникновения в ИИ Fable от Anthropic. Вместо этого проводился тест с фальшивым кодом, содержащим встроенные уязвимости, при котором Fable отказался проверять код и отвечал только на запрос исправить этот код после ручных действий. Кейти Муссурис из Luta Security утверждает, что такой сценарий не должен вызывать контроль экспорта, называя его намеренным, искусственно созданным тестом, который оспаривает утверждения о нарушении безопасности.

arxiv arXiv cs.AI · 8 д назад

ALERCЕ запускает систему текст-в-СУЛЬ с использованием больших языковых моделей

Астрономическая база данных ALeRCE представляет систему текст-в-СУЛЬ, использующую большие языковые модели, позволяющую генерировать исполняемые запросы SQL на естественном языке. Система была оценена на 110 парах естественного языка и SQL, и использует пошаговый подход, превосходящий базовые модели с прямым выводом. Модель Claude Opus 4.6 достигает высокой точности при выполнении простых запросов и показывает лучшую общую производительность среди всех оцененных моделей.

arxiv arXiv cs.AI · 8 д назад

Сигналы Оракла в коде тестов, написанном агентами

Эмпирическое исследование 86 156 поправок на тестовые файлы из 33 596 запросов на внесение изменений, созданных агентами, показывает, что 80,2% поправок на тестовые файлы содержат слабые или отсутствующие явные сигналы оракла. Тестовые файлы с сильным ораклом значительно повышают вероятность слияния (OR = 1,28, p < 0,001) после корректировки на множество факторов, что указывает на то, что присутствие тестового файла в отдельности переоценивает степень верификации.

media r/LocalLLaMA · 8 д назад

Мы открыли исходный код нашего агента на основе больших языковых моделей для быстрого обнаружения сбоев

Approxima — это открытый исходный, самодостаточный агент по вопросам и ответам, который отслеживает пользовательские маршруты и поддерживает Claude, Gemini и GPT по умолчанию. Он включает режим Explore, A/B-тестирование и самовосстановление для адаптации к эволюции продукта, с полной поддержкой локальных моделей и вклада сообщества.