MSQA基准测试揭示多语言LLM中的文化退化

研究人员推出了MSQA，这是一个包含1064个原生问题的基准测试，涵盖11个语言组和五个文化维度，用于检验“多语言流利度意味着文化对齐”这一假设。对18个大语言模型的评估揭示了显著的文化退化和明显的局部效应（Locality Effect），其中能力与预训练曝光度相关，而非通用推理能力。

研究结果表明，仅凭多语言能力无法推断文化对齐，需要比推理时的校准、采样或检索更深入的干预。