GPT-5 mengungguli manusia dalam memicu keadaan kepercayaan melalui perencanaan

Sebuah studi baru mengevaluasi kemampuan Large Language Models untuk memicu keadaan kepercayaan spesifik pada agen lain melalui tindakan, bukan percakapan, sebuah kemampuan yang disebut Non-Conversational Planning ToM (NCP-ToM).

Menggunakan kerangka kerja NCP-ExploreToM, para peneliti menguji enam model terdepan dan peserta manusia pada 600 instance tugas di mana agen harus memindahkan objek atau mengarahkan karakter untuk mencapai tujuan kepercayaan.

GPT-5 berhasil pada sekitar 80% tugas dalam pengaturan agentic.
GPT-5 adalah satu-satunya model yang mengungguli peserta manusia, meskipun tetap kurang robust di seluruh konteks.
Semua model dan manusia berkinerja lebih baik dalam memicu keadaan kepercayaan benar dibandingkan yang palsu.

Temuan ini menyoroti kemampuan penalaran sosial yang muncul pada LLM untuk penyelesaian tugas non-konversasional dan menekankan perlunya evaluasi agentic untuk memahami keamanan dan alignment agen sosial otonom.