一项新研究评估了大型语言模型通过行动而非对话在其他智能体中诱导特定信念状态的能力,该能力被称为非对话式规划心智理论(NCP-ToM)。研究人员使用 NCP-ExploreToM 框架,在 600 个任务实例上测试了六个前沿模型和人类参与者,其中智能体必须移动物体或引导角色以实现信念目标。

  • GPT-5 在代理设置中成功完成了约 80% 的任务。
  • GPT-5 是唯一超越人类参与者的模型,尽管它在不同情境下的鲁棒性较低。
  • 所有模型和人类在诱导真实信念状态方面均优于虚假信念状态。

研究结果突显了 LLM 在非对话式任务完成中新兴的社会推理能力,并强调了评估自主社会智能体的安全性和对齐性的必要性。