Qwen3.6-27B 판타지 RP 벤치마크에서 82% 기록, Gemma-4-31B에 이어 2위

한 사용자가 퀘스트 완료, 장면 종료, 캐릭터 감지를 다루는 맞춤형 중세 판타지 역할극 벤치마크에서 8개의 로컬 모델을 평가했습니다. 테스트는 각 카테고리당 다양한 샘플 크기로 외부 LLM 채점자에 의해 평가되었습니다.

저자는 전체 퍼센티지만 보면 서로 다른 역할극 작업 전반에 걸친 모델 능력의 불균형이 숨겨진다고 강조합니다.