Este estudio evalúa la capacidad de Word2Vec para capturar relaciones semánticas en Toki Pona, un idioma con solo 130 palabras. Usando 1.4 millones de oraciones, encuentra que los tokens no centrales no interrumpen la estructura de incrustación y pueden incluso acercar palabras similares en el espacio vectorial. Los resultados muestran que la efectividad de Word2Vec depende más de los patrones distribucionales que del tamaño del vocabulario, incluso ante una reducción léxica extrema.
El rendimiento de Word2Vec en el vocabulario mínimo de Toki Pona
Traducido del English → Español