Studi mengevaluasi batasan dan komunikasi LLM dalam permainan Taboo

Studi ini meneliti bagaimana model bahasa besar menavigasi tuntutan yang bersaing antara batasan leksikal yang ketat dan efektivitas komunikatif dengan memainkan permainan Taboo. Para peneliti mengevaluasi dua model berbobot terbuka di bawah kondisi yang melakukan intervensi pada tingkat yang semakin dalam dari proses generatif, mulai dari prompting hingga manipulasi representasi internal.

Output dievaluasi melalui deteksi pelanggaran kata terlarang dan metrik LLM-as-a-judge yang mengukur seberapa baik deskripsi membangkitkan konsep target untuk tebak-tebakan manusia dan mesin.
Analisis membandingkan strategi yang diadopsi oleh model di bawah batasan dengan yang digunakan oleh pemain manusia.
Hasil menunjukkan bahwa kepatuhan terhadap aturan dan efektivitas komunikatif bertrade-off secara berbeda di berbagai kondisi.

Temuan tersebut menunjukkan bahwa grounding leksikal di bawah batasan tetap menjadi tantangan terbuka, karena model tetap jauh lebih lemah daripada manusia dalam tugas ini.