Une nouvelle étude évalue la capacité des grands modèles de langage (LLM) à induire des états de croyance spécifiques chez d'autres agents par des actions plutôt que par la conversation, une capacité qualifiée de ToM par Planification Non-Conversationnelle (NCP-ToM).
En utilisant le cadre NCP-ExploreToM, les chercheurs ont testé six modèles de pointe et des participants humains sur 600 instances de tâches où les agents devaient déplacer des objets ou diriger des personnages pour atteindre des objectifs de croyance.
- GPT-5 a réussi environ 80 % des tâches dans le cadre agentique.
- GPT-5 est le seul modèle à avoir surpassé les participants humains, bien qu'il soit resté moins robuste sur l'ensemble des contextes.
- Tous les modèles et les humains ont mieux réussi à induire des états de croyance vrais que faux.
Ces résultats mettent en évidence les capacités émergentes de raisonnement social des LLM pour l'accomplissement de tâches non conversationnelles et soulignent la nécessité d'évaluations agentiques pour comprendre la sécurité et l'alignement des agents sociaux autonomes.