El enfoque del desarrollo revela el aprendizaje estadístico de los Modelos de Lenguaje Neuronales: los Transformers generalizan a partir de los patrones estadísticos más abstractos

Este estudio investiga el aprendizaje estadístico y la representación mental de los modelos de lenguaje neuronales mediante el entrenamiento de modelos Transformer generativos en una gramática sintética y el análisis de sus representaciones internas en diversas etapas.

Los NLM adquieren el conocimiento estadístico global más abstracto al inicio del aprendizaje, seguido de dependencias estadísticas relativamente locales posteriormente.
La trayectoria de aprendizaje implica muchas sobre-generalizaciones desde el inicio que se van restringiendo gradualmente en las etapas posteriores.
Se propone un nuevo marco para explicar el aprendizaje estadístico y la cognición del lenguaje de los NLM basándose en estas observaciones.