Pesquisadores introduzem o MSQA, um benchmark de 1.064 perguntas nativamente coletadas para 11 grupos linguísticos e cinco dimensões culturais, para testar a suposição de que a fluência multilíngue implica alinhamento cultural. A avaliação de 18 grandes modelos de linguagem revela degradação cultural substancial e um pronunciado Efeito de Localidade, onde a competência acompanha a exposição ao pré-treinamento em vez da capacidade geral de raciocínio.
- O MSQA visa conhecimento localmente fundamentado para reduzir atalhos da transferência intercêntrica no inglês.
- Os modelos permanecem excessivamente confiantes em perguntas culturais desconhecidas apesar das capacidades multilíngues.
- A amostragem repetida produz correção instável, e a augmentação por recuperação ajuda de forma desigual em fatos de cauda longa.
As descobertas indicam que o alinhamento cultural não pode ser inferido apenas da capacidade multilíngue e requer intervenções mais profundas do que calibração, amostragem ou recuperação durante a inferência.