Este estudio examina cómo los grandes modelos de lenguaje navegan las demandas competitivas de estrictas restricciones léxicas y efectividad comunicativa jugando al juego de Tabú. Los investigadores evaluaron dos modelos de peso abierto bajo condiciones que intervienen a niveles progresivamente más profundos del proceso generativo, desde el prompting hasta manipulaciones de representaciones internas.
- Las salidas se evaluaron mediante detección de violaciones de palabras prohibidas y métricas LLM-as-a-judge que miden qué tan bien las descripciones evocan el concepto objetivo para adivinadores humanos y máquinas.
- El análisis comparó las estrategias adoptadas por los modelos bajo restricción contra las usadas por jugadores humanos.
- Los resultados indican que el cumplimiento de las reglas y la efectividad comunicativa compensan de manera diferente según las condiciones.
Los hallazgos sugieren que el anclaje léxico bajo restricción sigue siendo un desafío abierto, ya que los modelos siguen siendo sustancialmente más débiles que los humanos en esta tarea.