La tokenización basada en IPA mejora el rendimiento de modelos de lenguaje multilingües
Un nuevo enfoque utiliza el Alfabeto Fonético Internacional para crear tokenizadores independientes del idioma para modelos multilingües. El entrenamiento de tokenizadores de subpalabras con texto emparejado y IPA en 24 idiomas y 14 escrituras muestra que los tokenizadores IPA mejoran la calidad de la tokenización, particularmente para escrituras no latinas, y generalizan mejor a idiomas y escrituras no vistas.