Anthropic은 Claude Fable 5를 전 세계적으로 재배치하고 사이버 보안 안전 분류기 및 제안된 AI 제일브레이크 중증도 프레임워크에 대한 상세 정보를 공개했습니다. 동사는 정부와 제일브레이크 위험을 논의하기 위한 일관된 용어 체계를 확립하는 것을 목표로 하며, 더 넓은 커뮤니티로부터 피드백을 받고 있습니다.

  • 안전 분류기는 사이버 보안 사용 사례를 4가지 그룹으로 분류합니다: 금지, 고위험 양용, 저위험 양용, 그리고 무해.
  • 랜섬웨어, 사이버 물리적 파괴, 멀웨어 개발, 인터넷 백본 공격 등 큰 피해 가능성이 높은 행동은 금지됩니다.
  • 침투 테스트 및 익스플로이트 개발과 같은 고위험 양용 활동은 승인된 행위자에 대한 적절한 접근 통제가 갖춰질 때까지 현재 차단되어 있습니다.
  • 다양한 유형의 AI 제일브레이크가 초래하는 위험을 개발자와 정부가 일관되게 설명할 수 있도록 지원하기 위해 새로운 제일브레이크 중증도 프레임워크가 제안되었습니다.

이 이니셔티브는 방어적 기술의 사용을 가능하게 하면서 오용을 방지하는 기준을 정의하기 위해 학계, 산업계, 정부 간 논의를 촉발시키는 것을 목표로 합니다.