arxiv arXiv cs.CL · 1시간 전 · research

LLM을 위한 온라인 안전 모니터링

번역 English → 한국어

본 기사는 배포 중 대규모 언어 모델에서 부안전 출력이 지속되는 문제를 다루고 실시간 모니터링 솔루션을 제안합니다. 외부 모델의 검증자 신호를 임계값 처리를 통해 경고 결정으로 변환하는 간단한 모니터를 소개하며, 임계값은 리스크 제어를 통해 보정됩니다.

본 방법은 검증자 신호에 대한 임계값 처리를 사용하여 경고를 생성합니다.
임계값은 리스크 제어 기법을 사용하여 보정됩니다.
수학적 추론 및 레드 팀링 데이터셋에서 실험을 수행했습니다.
간단한 설계는 순차적 가설 검정에 기반한 고급 모니터와 경쟁력 있습니다.

중요도 1/3 arXiv cs.CL Evaluation & benchmarks Safety & alignment