Anthropic детализирует киберзащиту Fable 5 и фреймворк для обхода ограничений

Anthropic развернула Claude Fable 5 по всему миру и опубликовала подробную информацию о классификаторах безопасности кибербезопасности и предложенной фреймворке оценки серьезности обхода ограничений ИИ. Компания стремится установить единообразную терминологию для обсуждения рисков обхода с правительствами, а также приглашает широкое сообщество предоставить обратную связь.

Классификаторы безопасности разделяют кибербезопасные применения на четыре группы: запрещенные, высоко рисковые двойного назначения, низко рисковые двойного назначения и безвредные.
Запрещенные действия включают программное обеспечение для вымогательства, киберфизический саботаж, разработку вредоносных программ и атаки на интернет-магистраль из-за их высокого потенциала вреда.
Деятельность с высоким риском двойного назначения, такая как тестирование на проникновение и разработка эксплойтов, в настоящее время заблокирована до улучшения контроля доступа для авторизованных лиц.
Предложен новый фреймворк оценки серьезности обхода ограничений, чтобы помочь разработчикам и правительствам последовательно описывать риски, представляемые различными типами обходов ИИ.

Эта инициатива стремится вызвать обсуждение в академической среде, индустрии и правительстве для определения стандартов, которые позволяют использовать защитные технологии, предотвращая их неправильное использование.