研究人员推出了MSQA,这是一个包含1064个原生问题的基准测试,涵盖11个语言组和五个文化维度,用于检验“多语言流利度意味着文化对齐”这一假设。对18个大语言模型的评估揭示了显著的文化退化和明显的局部效应(Locality Effect),其中能力与预训练曝光度相关,而非通用推理能力。

  • MSQA针对本地化知识,以减少源自以英语为中心的跨语言迁移捷径。
  • 尽管具备多语言能力,模型在面对不熟悉的文化问题时仍表现出过度自信。
  • 重复采样导致正确率不稳定,检索增强对长尾事实的帮助不均。

研究结果表明,仅凭多语言能力无法推断文化对齐,需要比推理时的校准、采样或检索更深入的干预。