이 연구는 대규모 언어 모델이 엄격한 어휘 제약과 커뮤니케이션 효과성이라는 상충되는 요구를 타부 게임을 통해 어떻게 처리하는지 조사합니다. 연구진은 생성 과정의 더 깊은 수준으로 개입하는 조건 하에서 프롬프팅부터 내부 표현 조작에 이르기까지 두 개의 오픈 웨이트 모델을 평가했습니다.

  • 출력은 금지 단어 위반 감지와 설명이 인간 및 기계 추측자에게 목표 개념을 얼마나 잘 불러일으키는지를 측정하는 LLM-as-a-judge 지표를 통해 평가되었습니다.
  • 이 분석은 제약 하에서 모델이 채택한 전략과 인간 플레이어가 사용한 전략을 비교했습니다.
  • 결과는 규칙 준수와 커뮤니케이션 효과성이 조건에 따라 서로 다른 트레이드오프를 보인다는 것을 나타냅니다.

이 findings는 제약 하의 어휘적 그라운딩이 여전히 해결되지 않은 과제임을 시사하며, 모델은 이 작업에서 인간보다 훨씬 약합니다.