Un nuevo enfoque utiliza el Alfabeto Fonético Internacional para crear tokenizadores independientes del idioma para modelos multilingües. El entrenamiento de tokenizadores de subpalabras con texto emparejado y IPA en 24 idiomas y 14 escrituras muestra que los tokenizadores IPA mejoran la calidad de la tokenización, particularmente para escrituras no latinas, y generalizan mejor a idiomas y escrituras no vistas.