MSQAベンチマークがマルチリンガルLLMにおける文化的劣化を明らかにする

研究者らは、マルチリンガルの流暢さが文化的整合性を意味するという仮定を検証するため、11の言語グループと5つの文化的次元にわたる1,064件のネイティブ由来の質問からなるベンチマーク「MSQA」を紹介した。18の大規模言語モデルを評価した結果、顕著な文化的劣化と顕著な局所性効果（Locality Effect）が明らかになった。この効果では、能力は一般的な推論能力ではなく、事前学習での曝露に追従する。

MSQAは、英語中心の異言語転移によるショートカットを減らすため、地域に根ざした知識を対象としている。
モデルはマルチリンガルの能力にもかかわらず、見知らぬ文化的質問に対して過信し続ける。
繰り返しサンプリングすると正答率が不安定になり、検索拡張はロングテールの事実に偏って効果をもたらす。

これらの知見は、文化的整合性はマルチリンガルの能力だけでは推測できず、推論時のキャリブレーション、サンプリング、または検索よりも深い介入を必要とすることを示している。