LangMAP extiende UnigramLM para crear tokenización específica del idioma a partir de un vocabulario compartido, permitiendo el entrenamiento o adaptación de modelos multilingües sin cambios en el vocabulario. Mejora la alineación de límites morfológicos y la alineación de hojas AST en lenguajes de programación, y mejora la aceptabilidad gramatical en los idiomas objetivo, aunque los beneficios varían en tareas basadas en conocimiento.
LangMAP: Tokenización adaptativa al idioma para modelos multilingües
Traducido del English → Español