새로운 연구는 대규모 언어 모델이 대화 대신 행동을 통해 다른 에이전트에게 특정 신념 상태를 유도하는 능력을 평가했다. 이 능력은 '비대화적 계획 ToM(NCP-ToM)'으로 명명되었다.

NCP-ExploreToM 프레임워크를 사용하여 연구진은 6개의 최첨단 모델과 인간 참가자를 테스트했으며, 에이전트가 물체를 이동하거나 캐릭터를 지시하여 신념 목표를 달성해야 하는 600개의 작업 인스턴스에서 평가했다.

  • GPT-5는 에이전트 설정에서 약 80%의 작업에 성공했다.
  • GPT-5는 인간 참가자를 능가한 유일한 모델이었지만, 문맥 전반에서는 여전히 견고성이 부족했다.
  • 모든 모델과 인간은 거짓 신념 상태보다 참 신념 상태를 유도하는 데 더 높은 성능을 보였다.

이 결과는 비대화적 작업 완료에서 LLM의 부상하는 사회적 추론 능력을 부각하며, 자율 사회 에이전트의 안전성과 정렬을 이해하기 위해 에이전트 평가가 필수적임을 강조한다.