MCQA에서의 페르소나 기반 LLM 생성은 서로 다른 차원 간에 불안정하다

본 연구는 자유 형식 텍스트 상호작용과 비교하여 간과되기 쉬운 영역인 다중 선택 질문 답변(MCQA) 작업에서 대규모 언어 모델의 페르소나 기반 생성(PDGs)의 불안정성을 조사합니다. 저자들은 서로 다른 차원 전반에 걸친 성능, 결과 및 질문 정확도 안정성을 평가하기 위해 세 가지 지표를 개발했습니다.

불안정성은 모델 패밀리, 모델 크기 및 질문 도메인 간에 일관되게 변화하며, 수학 및 상식 관련 질문은 더 큰 불안정성을 보입니다.
작업 프롬프트 형식은 온도 등의 다른 하이퍼파라미터보다 더 많은 예측 불안정성을 초래합니다.
불안정성은 작업 정확도와 관련이 있으며, 유사한 페르소나임에도 불구하고 서로 다른 실험 설정이 서로 다른 최상 및 최하 페르소나를 초래할 수 있음을 드러냅니다.

이러한 발견은 신뢰할 수 있는 성능을 보장하기 위해 페르소나 기반 생성에서 하이퍼파라미터 불안정성을 확인하는 것의 중요성을 강조합니다.