Anthropic détaille les mesures de cybersécurité de Fable 5 et le cadre des jailbreaks

Anthropic a redéployé Claude Fable 5 à l'échelle mondiale et publié des informations détaillées concernant ses classificateurs de sécurité cybersécurité ainsi qu'un cadre proposé pour la gravité des jailbreaks IA. L'entreprise vise à établir une terminologie cohérente pour discuter des risques de jailbreak avec les gouvernements, tout en invitant les retours de la communauté plus large.

Les classificateurs de sécurité catégorisent les usages cybersécurité en quatre groupes : interdits, double usage à haut risque, double usage à faible risque et bénins.
Les actions interdites incluent les rançongiciels, la sabotage cyber-physique, le développement de malwares et les attaques sur l'ossature d'Internet en raison de leur fort potentiel de nuisance.
Les activités à double usage à haut risque, telles que les tests de pénétration et le développement d'exploits, sont actuellement bloquées en attendant de meilleurs contrôles d'accès pour les acteurs autorisés.
Un nouveau cadre de gravité des jailbreaks est proposé pour aider les développeurs et les gouvernements à décrire de manière cohérente les risques posés par différents types de jailbreaks IA.

Cette initiative cherche à stimuler le débat entre l'académie, l'industrie et le gouvernement afin de définir des normes qui permettent l'utilisation défensive de la technologie tout en prévenant les abus.