¿Qué tan sorprendente es el italiano histórico para los modelos de lenguaje? Costo de tokenización, costo de comprensión y una mitigación simple
Este artículo propone un marco diagnóstico que descompone la dificultad del lenguaje histórico en costo de tokenización, incertidumbre predictiva, robustez semántica y sensibilidad al contexto. Los autores evalúan este marco en textos italianos del siglo XVII, italiano del siglo XIX y ruso del siglo XVIII para comprender cómo los LLM procesan lenguas históricas.