Sebuah studi baru mengevaluasi kemampuan Large Language Models untuk memicu keadaan kepercayaan spesifik pada agen lain melalui tindakan, bukan percakapan, sebuah kemampuan yang disebut Non-Conversational Planning ToM (NCP-ToM).

Menggunakan kerangka kerja NCP-ExploreToM, para peneliti menguji enam model terdepan dan peserta manusia pada 600 instance tugas di mana agen harus memindahkan objek atau mengarahkan karakter untuk mencapai tujuan kepercayaan.

  • GPT-5 berhasil pada sekitar 80% tugas dalam pengaturan agentic.
  • GPT-5 adalah satu-satunya model yang mengungguli peserta manusia, meskipun tetap kurang robust di seluruh konteks.
  • Semua model dan manusia berkinerja lebih baik dalam memicu keadaan kepercayaan benar dibandingkan yang palsu.

Temuan ini menyoroti kemampuan penalaran sosial yang muncul pada LLM untuk penyelesaian tugas non-konversasional dan menekankan perlunya evaluasi agentic untuk memahami keamanan dan alignment agen sosial otonom.