¿Qué tan sorprendente es el italiano histórico para los modelos de lenguaje? Costo de tokenización, costo de comprensión y una mitigación simple

Este artículo propone un marco diagnóstico que descompone la dificultad del lenguaje histórico en costo de tokenización, incertidumbre predictiva, robustez semántica y sensibilidad al contexto. Los autores evalúan este marco en textos italianos del siglo XVII, italiano del siglo XIX y ruso del siglo XVIII para comprender cómo los LLM procesan lenguas históricas.

El estudio utiliza un corpus recién curado de textos italianos del siglo XVII (1610-1689), el canónico "I Promessi Sposi" del siglo XIX en italiano, y libros impresos civiles rusos del siglo XVIII.

El ruso y el italiano moderno temprano incurrren en penalizaciones de tokenización comparables con una inflación del 25-30%, pero su dificultad predictiva diverge drásticamente.

El italiano del siglo XVII es, en promedio, 2.4 veces más sorprendente que su equivalente moderno, alcanzando 3.2 veces para la prosa académica.

La similitud de incrustaciones permanece robusta (> 0.85) en todos los conjuntos de datos, lo que indica que los modelos pueden representar el significado histórico incluso cuando la generación es inestable.

Un prompt de contexto temporal mínimo reduce la sorpresa histórica aproximadamente un 60%.

Estos hallazgos sugieren que, aunque el texto histórico impone un costo de codificación consistente, las bibliotecas digitales pueden implementar con seguridad LLM para tareas de recuperación semántica, siempre que las aplicaciones generativas se adapten cuidadosamente.