新しい研究は、大規模言語モデルが会話ではなく行動を通じて他のエージェントに特定の信念状態を誘導する能力を評価した。この能力は「非対話的計画によるTheory of Mind(NCP-ToM)」と名付けられた。

NCP-ExploreToMフレームワークを用いて、研究者らは6つの最先端モデルと人間の参加者をテストし、エージェントが物体を動かすかキャラクターを誘導して信念目標を達成する必要がある600のタスクインスタンスで評価した。

  • GPT-5は、エージェント設定において約80%のタスクに成功した。
  • GPT-5は人間の参加者を上回った唯一のモデルだったが、文脈全体ではまだ堅牢性に欠けていた。
  • すべてのモデルと人間は、偽の信念状態よりも真の信念状態を誘導する方が高い性能を示した。

これらの知見は、非対話的タスク完了におけるLLMの新たな社会的推論能力を浮き彫りにし、自律的な社会エージェントの安全性とアライメントを理解するためにエージェント評価が不可欠であることを強調している。