本研究考察了大型语言模型在玩“禁忌”游戏时,如何在严格的词汇约束和沟通有效性之间的竞争需求中导航。研究人员在干预生成过程越来越深层次的条件下评估了两个开放权重模型,范围从提示到内部表示的操纵。

  • 通过禁止词违规检测和 LLM-as-a-judge 指标评估输出,这些指标衡量描述为人类和机器猜测者唤起目标概念的程度。
  • 分析比较了模型在约束下采用的策略与人类玩家使用的策略。
  • 结果表明,规则遵守和沟通有效性在不同条件下的权衡方式不同。

研究结果暗示,在约束下的词汇基础仍然是一个开放挑战,因为模型在此任务中仍远弱于人类。