Использование международного фонетического алфавита для токенизации улучшает производительность многоречевых моделей языка

Новый подход использует Международный фонетический алфавит для создания токенизаторов, независимых от языка, для многоречевых моделей. Обучение сопоставленных текстов и токенизаторов на подсловах для 24 языков и 14 письменных систем показывает, что токенизаторы на основе фонетики улучшают качество токенизации, особенно для нелатинских письменных систем, и лучше обобщаются на неизвестные языки и письменные системы.