LangMAP: Tokenización adaptativa al idioma para modelos multilingües

LangMAP extiende UnigramLM para crear tokenización específica del idioma a partir de un vocabulario compartido, permitiendo el entrenamiento o adaptación de modelos multilingües sin cambios en el vocabulario. Mejora la alineación de límites morfológicos y la alineación de hojas AST en lenguajes de programación, y mejora la aceptabilidad gramatical en los idiomas objetivo, aunque los beneficios varían en tareas basadas en conocimiento.