Benchmark MSQA mengungkap degradasi budaya pada LLM multibahasa

Para peneliti memperkenalkan MSQA, sebuah benchmark yang terdiri dari 1.064 pertanyaan yang bersumber secara native melintasi 11 kelompok bahasa dan lima dimensi budaya, untuk menguji asumsi bahwa kelancaran multibahasa menyiratkan keselarasan budaya. Evaluasi terhadap 18 model bahasa besar mengungkapkan degradasi budaya yang substansial dan Efek Lokalitas yang menonjol, di mana kompetensi mengikuti paparan pra-pelatihan daripada kemampuan penalaran umum.

MSQA menargetkan pengetahuan yang berakar secara lokal untuk mengurangi jalan pintas dari transfer lintas bahasa yang berpusat pada bahasa Inggris.
Model tetap terlalu percaya diri pada pertanyaan budaya yang tidak dikenal meskipun memiliki kemampuan multibahasa.
Pengambilan sampel berulang menghasilkan kebenaran yang tidak stabil, dan augmentasi pengambilan membantu secara tidak merata pada fakta ekor panjang.

Temuan ini menunjukkan bahwa keselarasan budaya tidak dapat disimpulkan hanya dari kemampuan multibahasa dan memerlukan intervensi yang lebih dalam daripada kalibrasi, pengambilan sampel, atau pengambilan saat inferensi.