Para peneliti mengusulkan YOMI-Bench, sebuah benchmark yang dirancang untuk mengevaluasi kemampuan pembacaan kanji dan pemahaman fonologis model bahasa besar (LLM) dalam bahasa Jepang. Benchmark ini mengatasi kesulitan dalam menyimpulkan bacaan yang benar dari teks permukaan karena adanya beberapa kemungkinan bacaan per karakter.

  • YOMI-Bench terdiri dari empat tugas yang secara khusus dirancang untuk mengevaluasi kinerja pembacaan kanji.
  • Evaluasi menilai satu LLM terbuka multibahasa, empat LLM terbuka spesifik bahasa Jepang, dan lima LLM komersial.
  • Hasil menunjukkan bahwa bahkan model spesifik bahasa Jepang pun menunjukkan kinerja rendah dalam pembacaan kanji.
  • Model komersial juga berkinerja buruk pada tugas generasi yang memerlukan pertimbangan bacaan kanji.

Studi ini menyoroti bahwa LLM saat ini kesulitan dengan karakteristik linguistik kanji bahasa Jepang, mengindikasikan perlunya peningkatan pemahaman fonologis.