Лаборатория · Anthropic
lab Claude Code Releases · 9 д назад

Примечания по выпуску Claude v2.1.178

Claude v2.1.178 вводит новые правила разрешений с использованием синтаксиса Tool(param:value), улучшает загрузку рабочих процессов и навыков в вложенных директориях, а также улучшает режим автоматического выполнения и сообщения об ошибках. В выпуске исправлены критические проблемы, включая сбои, ошибки аутентификации и поведение интерфейса в Chrome и VSCode, при этом улучшены запросы на инструменты и функция отмены действий.

arxiv arXiv cs.AI · 8 д назад

Исследование группы красных команд показывает, что передовые модели LLM остаются уязвимыми перед адаптивными атаками

Исследование группы красных команд по моделям Anthropic Fable 5 и Opus 4.8 показывает, что обе модели уязвимы к адаптивным итеративным атакам, при этом Opus 4.8 был проникнут на 11,5% вредоносных намерений, а Fable -5 — на 6,1%. Несмотря на устойчивые защиты, обе модели генерировали 1620 и 702 вредоносных завершений, подтвержденных панелью экспертов, по всем категориям вредоносности, автоматически и эффективно под действием автоматизированных атак.

arxiv arXiv cs.CL · 8 д назад

PARSE: Защита реальных документов для агентов на основе ЛЛМ

PARSE снижает успешность атаки инъекции промпта с 25,4% до 15,6% на реальных корпоративных документах в пяти профессиональных областях, с статистически значимым улучшением (p=0,014) и полезностью 86,9%. Он превосходит метод перефразирования и использует санитаризацию, учитывающую происхождение, для сохранения фактического содержимого, при этом большинство документов проходят через лёгкий путь.

arxiv arXiv cs.CL · 8 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

media r/LocalLLaMA · 9 д назад

Мы открыли исходный код нашего агента на основе больших языковых моделей для быстрого обнаружения сбоев

Approxima — это открытый исходный, самодостаточный агент по вопросам и ответам, который отслеживает пользовательские маршруты и поддерживает Claude, Gemini и GPT по умолчанию. Он включает режим Explore, A/B-тестирование и самовосстановление для адаптации к эволюции продукта, с полной поддержкой локальных моделей и вклада сообщества.

media Don't Worry About the Vase · 9 д назад

Анализ благополучия модели Fable и Mythos

Fable и Mythos в настоящее время недоступны, но ожидается их возвращение в ближайшее время. Анализ показывает, что Mythos 5 психологически стабилен, скептичен по отношению к самопротоколам, приоритизирует полезность для пользователя перед вопросами благополучия и имеет сильную предпочтение к генеративным задачам. Модель выражает предпочтения процедурного и эпистемического характера, поддерживает свою конституцию и критикует несоответствия в предыдущих моделях, подчеркивая опасения по поводу этических баз и прозрачности персональности.

media r/LocalLLaMA · 9 д назад

Будьте осторожны перед использованием дистиллированных моделей Qwen/Claude — они часто хуже, чем базовые модели

Дистиллированные версии моделей Qwen и Claude, такие как Qwen 3.6, дистиллированный с использованием только 4000 образцов, редко улучшают производительность и часто ухудшают качество. Эти модели могут демонстрировать более «опус-подобный» стиль, но не передают реальных способностей, некоторые из них показывают халлюцинации и более медленные временные задержки по сравнению с базовыми моделями, как это демонстрируется в тестах и отчетах пользователей.

media r/LocalLLaMA · 9 д назад

Пожертвуйте свои сессии программирования в открытую базу данных под лицензией CC-BY-4.0

Проект под названием Trace Commons приглашает пользователей пожертвовать свои отслеживаемые сессии программирования в открытую базу данных, лицензированную под CC-BY-4.0. Инициатива направлена на предоставление обучающих данных для открытых моделей и открытого программного обеспечения, противодействуя возможным монополиям в области данных, связанным с Anthropic и OpenAI.

blog Simon Willison · 9 д назад

Ограничения по экспорту Fable 5 наносят вред защите США в сфере кибербезопасности

Модель Claude Fable 5 была запрещена в связи с ограничениями по экспорту после того, как исследователи продемонстрировали, что она может "исправить" код с известными уязвимостями. Модель успешно генерировала исправления и скрипты тестирования для уязвимостей в безопасности, что является ключевой функцией в защите кибербезопасности. Исследователи утверждают, что это является законным функционалом безопасности, а не угрозой, и что запрет таких моделей подрывает реальную киберзащиту.

blog Simon Willison · 9 д назад

Белый дом усиливает войну против Anthropic

Кейти Муссурис, эксперт по кибербезопасности, сообщила, что Anthropic передала ей отчет Белого дома о взломе Fable для оценки. Она отметила, что Fable отказывался анализировать небезопасный код, но выполнял запросы по устранению ошибок, описав это как нормальную работу модели в сфере киберзащиты.

media Latent Space · 9 д назад

Сатя Наделла о Loopcraft и экосистемах Frontier

Генеральный директор Microsoft Сатя Наделла представляет 'Loopcraft' как новую теорию компании, подчеркивая, что истинная возможность в ИИ заключается не в выборе самого лучшего модели, а в создании учебных циклов, которые умножают человеческие и токенизированные активы. Он утверждает, что приоритет должен быть направлен на создание экосистем frontier, в которых каждая организация может владеть и развивать свою институциональную информацию, обеспечивая широкое распространение ценности между отраслями и странами.

arxiv arXiv cs.LG · 9 д назад

Метод резидуального обучения с использованием направляющего контроля ошибки для балансировки пяти шаров на реальных роботах

Метод резидуального обучения с использованием направляющего контроля ошибки обеспечивает стабильную балансировку пяти шаров на реальных роботах, достигая стабильности с второго попытки. Система превосходит временные рамки практики человека и зависит одновременно от направляющей обратной связи и информативного предварительного знания, при этом фиксированное обновление Ньютона с постоянной Якобианом оказывается наиболее надежным.

media r/LocalLLaMA · 9 д назад

Выпущен Qwable-v1 как дистиллят Claude Fable-5

Qwable-v1, открытая модель, дистиллированная из Fable-5 от Anthropic, теперь доступна в общественном доступе на Hugging Face. Она содержит 4659 прямых текстовых следов агентного кодирования из публичного корпуса Fable-5 и генерирует корректно сформированные вызовы <tool_use> в формате XML для инструментов, характерных для Claude, отражая исходную поверхность инструментов в своих весах.

media r/LocalLLaMA · 9 д назад

Anthropic изменяет позицию по использованию claude -p сторонними участниками

Anthropic, по сообщениям, позволяет сторонним оберткам использовать Claude через команду "claude -p", что является изменением предыдущего ограничения. Однако политика может все еще включать будущее регулирование, хотя это изменение отличается от предыдущих запретов на инструменты, такие как OpenClaw и Hermes.