ある研究は、ビジョン・ランゲージモデル(VLM)が共同対話中に共有されうるものと、共有理解として確立されたものを区別できるかどうかを調査した。研究者らは、HCRC MapTask対話から13,077件の注釈付き参照表現を用いて解釈一致タスクを構築し、制御条件下でのモデルの挙動を評価した。

  • 本物の地図画像を提供すると全体的なパフォーマンスが向上するが、モデルは相手の視点との整合性を過剰に予測するようになる。
  • マップ内容のテキスト記述はこのバイアスを再現する一方、非情報的な画像は整合性予測を完全に抑制する。
  • このバイアスは視覚チャネルそのものではなく、タスクに関連するマップコンテンツによって駆動されている。
  • 整合性予測のこの向上は、非整合ケースにおける精度の低下と引き換えにもたらされる。
  • キャリブレーション分析により、モデルが対話履歴を通じてグラウンディングを追跡するのではなく、マップ上の静的な参照手がかりに依存していることが示唆された。
  • これらのパターンはQwen3-VL-8B-Instructで最も明確に観察され、2つのアーキテクチャファミリーから4つの追加モデルでも程度に応じて確認された。

これらの知見は、VLMが潜在的に共有される情報と確立された共通基盤を混同し、マップ内容を相互理解の証拠として扱い、相互作用を通じてグラウンディングがどのように展開するかを追跡しないことを示している。