연구자들은 다국어 유창성이 문화적 정렬을 의미한다는 가정을 검증하기 위해 11개 언어 그룹과 5개 문화 차원에 걸쳐 1,064개의 원천 질문으로 구성된 벤치마크 MSQA를 소개했다. 18개의 대규모 언어 모델을 평가한 결과 상당한 문화적 저하와 뚜렷한 지역성 효과(Locality Effect)가 드러났다. 이 효과에서 능력은 일반적인 추론 능력보다는 사전 학습 노출에 따라 추적된다.

  • MSQA는 영어 중심의 교차 언어 전달으로 인한 단축 경로를 줄이기 위해 지역 기반 지식에 초점을 맞춘다.
  • 모델은 다국어 능력을 가지고 있음에도 불구하고 익숙하지 않은 문화적 질문에 대해 과도한 자신감을 유지한다.
  • 반복 샘플링은 불안정한 정확도를 산출하며, 검색 증강은 긴 꼬리 사실에 불균형적으로 도움을 준다.

이러한 발견은 문화적 정렬이 다국어 능력만으로 추론될 수 없으며, 추론 시 보정, 샘플링 또는 검색보다 더 깊은 개입이 필요함을 나타낸다.