한 사용자가 퀘스트 완료, 장면 종료, 캐릭터 감지를 다루는 맞춤형 중세 판타지 역할극 벤치마크에서 8개의 로컬 모델을 평가했습니다. 테스트는 각 카테고리당 다양한 샘플 크기로 외부 LLM 채점자에 의해 평가되었습니다.

  • Gemma-4-31B는 전체 통과율 87%로 최고치를 기록했습니다.
  • Qwen3.6-27B는 82%의 통과율로 그 뒤를 이었습니다.
  • Gemma-4-12B는 80%를 기록했으며, 소규모 모델은 55%에서 70% 사이였습니다.
  • 평가 결과 NPC 생각 등 특정 하위 카테고리에서 현저한 성능 급락이 드러났으며, 이는 전체 점수에 의해 가려졌습니다.

저자는 전체 퍼센티지만 보면 서로 다른 역할극 작업 전반에 걸친 모델 능력의 불균형이 숨겨진다고 강조합니다.