В данной статье разрабатывается количественная теория для Случайной Языковой Модели (RLM) в пределе масштабирования, когда количество скрытых символов стремится к бесконечности, а температура грамматики стремится к нулю при фиксированном соотношении. Исследование показывает, что модель допускает контролируемое описание на основе принципа больших отклонений для паттернов использования правил, сводя задачу к Случайным Энергетическим Моделям с нетривиальной комбинаторикой.
- RLM демонстрирует переход конденсации при критическом значении x=1/8, ниже которого использование правил концентрируется, а статистика языка зависит от длины корпуса.
- Вторая характерная шкала при x=1/2 отмечает начало снижения энтропии от её максимального значения.
- Выведены явные законы масштабирования для количества различных правил, энтропии и связанных наблюдаемых величин в режимах масштабирования, насыщения и критического режима.
Теория разрешает предыдущие неясности относительно существования термодинамического перехода и объясняет медленное приближение к пределу при больших N как следствие логарифмической зависимости от N. Она предоставляет единый фреймворк, в котором универсальные статистические свойства языка возникают из типичных реализаций порождающих грамматик.