Бенчмарк MSQA выявляет культурную деградацию в многоязычных LLM

Исследователи представляют MSQA, бенчмарк из 1064 вопросов, изначально собранных для 11 языковых групп и пяти культурных измерений, чтобы проверить предположение о том, что многоязычная беглость подразумевает культурное соответствие. Оценка 18 больших языковых моделей выявляет существенную культурную деградацию и выраженный Локальный Эффект, где компетентность зависит от воздействия при предварительном обучении, а не от общих способностей к рассуждению.

MSQA нацелен на локально обоснованные знания, чтобы сократить использование упрощений из англоцентричного кросслингвального переноса.
Модели остаются излишне уверенными в ответах на вопросы по незнакомой культуре, несмотря на многоязычные возможности.

Повторная выборка дает нестабильную правильность, а аугментация с помощью поиска помогает неравномерно для фактов из длинного хвоста.

Выводы указывают на то, что культурное соответствие нельзя вывести только из многоязычных способностей и требуются более глубокие вмешательства, чем калибровка, выборка или поиск во время вывода.