Estudo avalia restrições e comunicação de LLM no jogo Tabu

Este estudo examina como grandes modelos de linguagem navegam as demandas competitivas de restrições léxicas estritas e eficácia comunicativa jogando o jogo de Tabu. Os pesquisadores avaliaram dois modelos de peso aberto sob condições que intervêm em níveis progressivamente mais profundos do processo generativo, desde prompting até manipulações de representações internas.

As saídas foram avaliadas por detecção de violação de palavras proibidas e métricas LLM-as-a-judge que medem o quão bem as descrições evocam o conceito alvo para adivinhadores humanos e máquinas.
A análise comparou as estratégias adotadas pelos modelos sob restrição contra as usadas por jogadores humanos.
Os resultados indicam que a conformidade com as regras e a eficácia comunicativa compensam de maneira diferente em condições distintas.

As descobertas sugerem que o ancoramento léxico sob restrição permanece um desafio aberto, pois os modelos continuam substancialmente mais fracos que humanos nesta tarefa.