本研究は、大規模言語モデルが厳格な語彙制約とコミュニケーションの有効性という競合する要求を、タブーゲームをプレイすることでどのように処理するかを検証する。研究者たちは、プロンプトから内部表現の操作まで、生成プロセスのより深いレベルで介入する条件下で、2つのオープンウェイトモデルを評価した。

  • 出力は、禁止語違反の検出と、記述が人間および機械の推測者にとって目標概念をいかによく引き出すかを測定するLLM-as-a-judge指標を通じて評価された。
  • この分析では、制約下でのモデルが採用した戦略と、人間のプレイヤーが使用した戦略を比較した。
  • 結果は、ルール遵守とコミュニケーションの有効性が、条件によって異なるトレードオフを示すことを示唆している。

これらの知見は、制約下での語彙的グラウンディングが依然として未解決の課題であることを示唆しており、モデルはこのタスクにおいて人間よりも大幅に劣っている。