Anthropic detalla las salvaguardias cibernéticas de Fable 5 y el marco de jailbreak

Anthropic ha reimplantado Claude Fable 5 globalmente y ha publicado información detallada sobre sus clasificadores de seguridad cibernética y un marco propuesto de severidad de jailbreak de IA. La empresa tiene como objetivo establecer una terminología consistente para discutir los riesgos de jailbreak con gobiernos, mientras invita a la comunidad más amplia a proporcionar comentarios.

Los clasificadores de seguridad categorizan los usos de ciberseguridad en cuatro grupos: prohibido, uso dual de alto riesgo, uso dual de bajo riesgo y benigno.
Las acciones prohibidas incluyen ransomware, sabotaje ciberfísico, desarrollo de malware y ataques a la columna vertebral de Internet debido a su alto potencial de daño.
Las actividades de uso dual de alto riesgo, como las pruebas de penetración y el desarrollo de exploits, están actualmente bloqueadas pendientes de mejores controles de acceso para actores autorizados.
Se propone un nuevo marco de severidad de jailbreak para ayudar a desarrolladores y gobiernos a describir consistentemente los riesgos que plantean diferentes tipos de jailbreaks de IA.

Esta iniciativa busca impulsar la discusión entre academia, industria y gobierno para definir estándares que habiliten el uso de tecnología defensiva mientras previenen el mal uso.