El benchmark MSQA revela degradación cultural en LLM multilingües

Los investigadores presentan MSQA, un benchmark de 1.064 preguntas originarias para 11 grupos lingüísticos y cinco dimensiones culturales, para probar la suposición de que la fluidez multilingüe implica alineación cultural. La evaluación de 18 modelos de lenguaje grandes revela una degradación cultural sustancial y un pronunciado Efecto de Localidad, donde la competencia se correlaciona con la exposición al preentrenamiento en lugar de con la capacidad general de razonamiento.

MSQA apunta a conocimientos arraigados localmente para reducir atajos del transferencia intercultural centrada en el inglés.
Los modelos permanecen excesivamente seguros en preguntas culturales desconocidas a pesar de las capacidades multilingües.
El muestreo repetido produce una corrección inestable, y la augmentación por recuperación ayuda de manera desigual en hechos de cola larga.

Los hallazgos indican que la alineación cultural no puede inferirse solo de la capacidad multilingüe y requiere intervenciones más profundas que la calibración, el muestreo o la recuperación durante la inferencia.