Les chercheurs présentent MSQA, un benchmark de 1 064 questions d'origine native couvrant 11 groupes linguistiques et cinq dimensions culturelles, pour tester l'hypothèse selon laquelle la maîtrise multilingue implique une adéquation culturelle. L'évaluation de 18 grands modèles de langage révèle une dégradation culturelle substantielle et un effet de localité prononcé, où la compétence suit l'exposition à l'entraînement plutôt que la capacité de raisonnement général.

  • MSQA cible les connaissances ancrées localement pour réduire les raccourcis issus du transfert interlingue centré sur l'anglais.
  • Les modèles restent surconfiants face aux questions culturelles inconnues malgré leurs capacités multilingues.
  • L'échantillonnage répété produit une exactitude instable, et l'augmentation par récupération aide de manière inégale sur les faits à longue traîne.

Ces résultats indiquent que l'adéquation culturelle ne peut être déduite uniquement de la capacité multilingue et nécessite une intervention plus profonde que le calibrage, l'échantillonnage ou la récupération au moment de l'inférence.