Les chercheurs proposent YOMI-Bench, un benchmark conçu pour évaluer les capacités de lecture des kanji et de compréhension phonologique des grands modèles de langage (LLM) en japonais. Le benchmark aborde la difficulté d'inférer les lectures correctes à partir du texte de surface en raison des multiples lectures possibles par caractère.
- YOMI-Bench est composé de quatre tâches spécifiquement conçues pour évaluer la performance de lecture des kanji.
- L'évaluation a porté sur un LLM ouvert multilingue, quatre LLM ouverts spécifiques au japonais et cinq LLM commerciaux.
- Les résultats montrent que même les modèles spécifiques au japonais présentent une faible performance dans la lecture des kanji.
- Les modèles commerciaux performant également mal sur les tâches de génération nécessitant de prendre en compte les lectures des kanji.
L'étude met en évidence que les LLM actuels ont du mal avec les caractéristiques linguistiques des kanji japonais, indiquant un besoin d'amélioration de la compréhension phonologique.