Étude évaluant les contraintes et la communication des LLM dans le jeu Taboo

Cette étude examine comment les grands modèles de langage gèrent les exigences concurrentes de contraintes lexicales strictes et d'efficacité communicative en jouant au jeu Taboo. Les chercheurs ont évalué deux modèles à poids ouverts dans des conditions intervenant à des niveaux de plus en plus profonds du processus génératif, allant du prompting aux manipulations de représentation interne.

Les sorties ont été évaluées via la détection des violations de mots interdits et des métriques LLM-as-a-judge mesurant dans quelle mesure les descriptions évoquent le concept cible pour les devinettes humaines et machine.
L'analyse a comparé les stratégies adoptées par les modèles sous contrainte à celles utilisées par les joueurs humains.
Les résultats indiquent que la conformité aux règles et l'efficacité communicative présentent des compromis différents selon les conditions.

Les résultats suggèrent que l'ancrage lexical sous contrainte reste un défi ouvert, les modèles restant substantiellement plus faibles que les humains dans cette tâche.