Большие языковые модели не могут точно переводить фонгбэ

Оценки показывают, что переводы фонгбэ имеют низкое качество (1,0–2,2/5), в отличие от приемлемого результата в случае хауса (4,0–4,5/5), при этом наблюдается постоянный разрыв в 3 раза по BLEU. Автоматические метрики, такие как BERTScore, показывают коллапс вложений и слабую корреляцию с человеческими оценками, особенно в случае хауса, в то время как Gemini превосходит другие модели при оценке фонгбэ, а GPT-4o — при оценке хауса в человеческих оценках. Для стабильного ранжирования моделей требуется минимальный объем образцов в 2500 предложений.