HaloGuard 1.0, 다국어 AI 안전을 위한 오픈 가중치 헌법 분류기 출시

연구자들은 다국어에 걸쳐 입력 안전성을 개선하도록 설계된 헌법 분류기 패러다임의 오픈 가중치 구현체인 HaloGuard 1.0을 제시했습니다. 이 모델은 46개 정책과 2,940개 하위 카테고리를 가진 자연어 헌법을 활용하여 합성 데이터 생성과 다국어 입력 처리를 주도합니다.

HaloGuard 1.0-0.8B는 7개의 프롬프트 안전성 벤치마크에서 평균 F1 점수 90.7을 달성하며, 최대 27B 파라미터 기반라인을 능가하고 거짓 양성률 4.3과 거짓 음성률 9.5를 유지합니다.
더 큰 HaloGuard 1.0-4B 변형은 재현율보다 정밀도를 우선시하여 평균 F1 점수 92.1과 거짓 양성률 3.5를 달성합니다.
훈련 코퍼스는 주제와 어휘를 고정된 상태로 의도만 반전시키는 포괄적인 일대일 대응 반사실적 데이터를 사용하여 거짓 양성을 줄입니다.
다국어 구현은 언어를 적대적 신호가 아닌 46개 언어에 걸친 표면 형태로 취급합니다.

이번 릴리스는 최첨단 다국어 안전성 성능에 필요한 파라미터 수를 크게 줄이는 매우 효율적인 오픈 소스 가드 모델을 제공합니다.