ROMEVA: Expansión de vocabulario que preserva la geometría para modelos de lenguaje en urdu romano

ROMEVA aborda la fragmentación subléxica en el urdu romano combinando una inicialización promedio de subpalabras y una pérdida de anclaje guiada por PCA para estabilizar los embeddings. Aunque ROMEVA preserva mejor los embeddings preentrenados, el ajuste fino ingenuo logra un rendimiento superior en la clasificación de sentimientos, lo que indica un compromiso entre la estabilidad de los embeddings y el rendimiento en tareas posteriores en lenguas con inconsistencia morfológica.