Anthropic detalha salvaguardas cibernéticas do Fable 5 e framework de jailbreak

A Anthropic reimplantou o Claude Fable 5 globalmente e publicou informações detalhadas sobre seus classificadores de segurança cibernética e um framework proposto de severidade de jailbreak de IA. A empresa visa estabelecer terminologia consistente para discutir riscos de jailbreak com governos, enquanto convida a comunidade mais ampla a fornecer feedback.

Os classificadores de segurança categorizam usos de cibersegurança em quatro grupos: proibido, uso duplo de alto risco, uso duplo de baixo risco e benigno.
Ações proibidas incluem ransomware, sabotagem ciberfísica, desenvolvimento de malware e ataques à espinha dorsal da internet devido ao seu alto potencial de dano.
Atividades de uso duplo de alto risco, como testes de penetração e desenvolvimento de exploits, estão atualmente bloqueadas aguardando melhores controles de acesso para atores autorizados.
Um novo framework de severidade de jailbreak é proposto para ajudar desenvolvedores e governos a descrever consistentemente os riscos apresentados por diferentes tipos de jailbreaks de IA.

Esta iniciativa busca estimular o debate entre academia, indústria e governo para definir padrões que permitam o uso de tecnologia defensiva enquanto previnem o mau uso.