GPT-5 通过规划在诱导信念状态方面超越人类

一项新研究评估了大型语言模型通过行动而非对话在其他智能体中诱导特定信念状态的能力，该能力被称为非对话式规划心智理论（NCP-ToM）。研究人员使用 NCP-ExploreToM 框架，在 600 个任务实例上测试了六个前沿模型和人类参与者，其中智能体必须移动物体或引导角色以实现信念目标。

研究结果突显了 LLM 在非对话式任务完成中新兴的社会推理能力，并强调了评估自主社会智能体的安全性和对齐性的必要性。