Насколько удивительны исторические итальянские тексты для языковых моделей? Налог на токенизацию, налог на понимание и простое смягчение
В данной статье предлагается диагностическая рамка, разлагающая сложность исторического языка на стоимость токенизации, предиктивную неопределенность, семантическую устойчивость и чувствительность к контексту. Авторы оценивают эту рамку на текстах итальянского языка 17-го века, итальянского языка 19-го века и русского языка 18-го века, чтобы понять, как LLM обрабатывают исторические языки.