Насколько удивительны исторические итальянские тексты для языковых моделей? Налог на токенизацию, налог на понимание и простое смягчение

В данной статье предлагается диагностическая рамка, разлагающая сложность исторического языка на стоимость токенизации, предиктивную неопределенность, семантическую устойчивость и чувствительность к контексту. Авторы оценивают эту рамку на текстах итальянского языка 17-го века, итальянского языка 19-го века и русского языка 18-го века, чтобы понять, как LLM обрабатывают исторические языки.

В исследовании используется недавно собранный корпус текстов итальянского языка 17-го века (1610-1689), канонический итальянский роман «Осужденные на брак» 19-го века и гражданские печатные книги русского языка 18-го века.
Русский язык и ранний современный итальянский язык несут сопоставимые токенизационные штрафы с инфляцией 25-30%, но их предиктивная сложность резко различается.
Итальянские тексты 17-го века в среднем на 2,4 раза более удивительны, чем их современные аналоги, достигая 3,2 раз для академической прозы.
Подобие эмбеддингов остается устойчивым (> 0,85) во всех наборах данных, что указывает на то, что модели могут представлять историческое значение, даже когда генерация нестабильна.
Минимальный контекстный запрос по времени снижает историческую удивительность примерно на 60%.

Эти результаты предполагают, что, хотя исторические тексты налагают последовательный налог на кодирование, цифровые библиотеки могут безопасно развертывать LLM для задач семантического поиска при условии тщательной адаптации генеративных приложений.