연구자들은 다국어에 걸쳐 입력 안전성을 개선하도록 설계된 헌법 분류기 패러다임의 오픈 가중치 구현체인 HaloGuard 1.0을 제시했습니다. 이 모델은 46개 정책과 2,940개 하위 카테고리를 가진 자연어 헌법을 활용하여 합성 데이터 생성과 다국어 입력 처리를 주도합니다.
- HaloGuard 1.0-0.8B는 7개의 프롬프트 안전성 벤치마크에서 평균 F1 점수 90.7을 달성하며, 최대 27B 파라미터 기반라인을 능가하고 거짓 양성률 4.3과 거짓 음성률 9.5를 유지합니다.
- 더 큰 HaloGuard 1.0-4B 변형은 재현율보다 정밀도를 우선시하여 평균 F1 점수 92.1과 거짓 양성률 3.5를 달성합니다.
- 훈련 코퍼스는 주제와 어휘를 고정된 상태로 의도만 반전시키는 포괄적인 일대일 대응 반사실적 데이터를 사용하여 거짓 양성을 줄입니다.
- 다국어 구현은 언어를 적대적 신호가 아닌 46개 언어에 걸친 표면 형태로 취급합니다.
이번 릴리스는 최첨단 다국어 안전성 성능에 필요한 파라미터 수를 크게 줄이는 매우 효율적인 오픈 소스 가드 모델을 제공합니다.