A Anthropic reimplantou o Claude Fable 5 globalmente e publicou informações detalhadas sobre seus classificadores de segurança cibernética e um framework proposto de severidade de jailbreak de IA. A empresa visa estabelecer terminologia consistente para discutir riscos de jailbreak com governos, enquanto convida a comunidade mais ampla a fornecer feedback.
- Os classificadores de segurança categorizam usos de cibersegurança em quatro grupos: proibido, uso duplo de alto risco, uso duplo de baixo risco e benigno.
- Ações proibidas incluem ransomware, sabotagem ciberfísica, desenvolvimento de malware e ataques à espinha dorsal da internet devido ao seu alto potencial de dano.
- Atividades de uso duplo de alto risco, como testes de penetração e desenvolvimento de exploits, estão atualmente bloqueadas aguardando melhores controles de acesso para atores autorizados.
- Um novo framework de severidade de jailbreak é proposto para ajudar desenvolvedores e governos a descrever consistentemente os riscos apresentados por diferentes tipos de jailbreaks de IA.
Esta iniciativa busca estimular o debate entre academia, indústria e governo para definir padrões que permitam o uso de tecnologia defensiva enquanto previnem o mau uso.