Anthropic telah mendistribusikan ulang Claude Fable 5 secara global dan menerbitkan informasi terperinci mengenai klasifikator keamanan siber serta kerangka tingkat keparahan jailbreak AI yang diusulkan. Perusahaan ini bertujuan untuk menetapkan terminologi yang konsisten dalam membahas risiko jailbreak dengan pemerintah, sambil mengundang masukan dari komunitas yang lebih luas.

  • Klasifikator keamanan mengkategorikan penggunaan siber menjadi empat kelompok: dilarang, penggunaan ganda berisiko tinggi, penggunaan ganda berisiko rendah, dan aman.
  • Tindakan yang dilarang mencakup ransomware, sabotase cyber-fisik, pengembangan malware, dan serangan pada tulang punggung internet karena potensi kerusakannya yang tinggi.
  • Aktivitas penggunaan ganda berisiko tinggi, seperti pengujian penetrasi dan pengembangan eksploit, saat ini diblokir menunggu kontrol akses yang lebih baik bagi aktor yang berwenang.
  • Kerangka tingkat keparahan jailbreak baru diusulkan untuk membantu pengembang dan pemerintah menggambarkan risiko yang ditimbulkan oleh berbagai jenis jailbreak AI secara konsisten.

Inisiatif ini bertujuan memicu diskusi di kalangan akademik, industri, dan pemerintah untuk menetapkan standar yang memungkinkan penggunaan teknologi defensif sambil mencegah penyalahgunaan.