Anthropic a redéployé Claude Fable 5 à l'échelle mondiale et publié des informations détaillées concernant ses classificateurs de sécurité cybersécurité ainsi qu'un cadre proposé pour la gravité des jailbreaks IA. L'entreprise vise à établir une terminologie cohérente pour discuter des risques de jailbreak avec les gouvernements, tout en invitant les retours de la communauté plus large.
- Les classificateurs de sécurité catégorisent les usages cybersécurité en quatre groupes : interdits, double usage à haut risque, double usage à faible risque et bénins.
- Les actions interdites incluent les rançongiciels, la sabotage cyber-physique, le développement de malwares et les attaques sur l'ossature d'Internet en raison de leur fort potentiel de nuisance.
- Les activités à double usage à haut risque, telles que les tests de pénétration et le développement d'exploits, sont actuellement bloquées en attendant de meilleurs contrôles d'accès pour les acteurs autorisés.
- Un nouveau cadre de gravité des jailbreaks est proposé pour aider les développeurs et les gouvernements à décrire de manière cohérente les risques posés par différents types de jailbreaks IA.
Cette initiative cherche à stimuler le débat entre l'académie, l'industrie et le gouvernement afin de définir des normes qui permettent l'utilisation défensive de la technologie tout en prévenant les abus.