Este artículo desarrolla una teoría cuantitativa para el Modelo de Lenguaje Aleatorio (RLM) en un límite de escala donde el número de símbolos ocultos se aproxima al infinito mientras la temperatura de la gramática se aproxima a cero a una relación fija. El estudio establece que el modelo admite una descripción controlada basada en un principio de grandes desviaciones sobre patrones de uso de reglas, mapeando el problema a Modelos de Energía Aleatoria con combinatorias no triviales.
- El RLM exhibe una transición de condensación en un valor crítico de x=1/8, por debajo del cual el uso de reglas se concentra y las estadísticas del lenguaje dependen de la longitud del corpus.
- Una segunda escala característica en x=1/2 marca el inicio de la reducción de entropía desde su valor máximo.
- Se derivan leyes de escala explícitas para el número de reglas distintas, entropía y observables relacionados a través de los regímenes de escala, saturación y crítico.
La teoría resuelve ambigüedades previas respecto a la existencia de una transición termodinámica y explica el lento acercamiento al límite de gran N como consecuencia de la dependencia log N. Proporciona un marco unificado en el que las propiedades estadísticas universales del lenguaje emergen de realizaciones típicas de gramáticas generativas.