본 기사는 배포 중 대규모 언어 모델에서 부안전 출력이 지속되는 문제를 다루고 실시간 모니터링 솔루션을 제안합니다. 외부 모델의 검증자 신호를 임계값 처리를 통해 경고 결정으로 변환하는 간단한 모니터를 소개하며, 임계값은 리스크 제어를 통해 보정됩니다.

  • 본 방법은 검증자 신호에 대한 임계값 처리를 사용하여 경고를 생성합니다.
  • 임계값은 리스크 제어 기법을 사용하여 보정됩니다.
  • 수학적 추론 및 레드 팀링 데이터셋에서 실험을 수행했습니다.
  • 간단한 설계는 순차적 가설 검정에 기반한 고급 모니터와 경쟁력 있습니다.