Este artículo presenta Svarna, un banco de trabajo de corpus gratuito, de código abierto y basado en la web, diseñado para abordar las lagunas en la tecnología del idioma griego moderno mediante la integración de cinco bases de datos distintas. La plataforma consolida más de 507 millones de palabras y aproximadamente 29 millones de oraciones de registros institucionales, literarios, dialectales, de redes sociales e históricos en una única interfaz accesible sin inicio de sesión ni instalación.

  • Integra cinco bases de datos que cubren varios registros para proporcionar más de 507 millones de palabras y alrededor de 29 millones de oraciones.
  • Ofrece un concordance con marcado KWIC, análisis de frecuencia con normalización registro por registro y extracción de colocaciones utilizando información mutua.
  • Incluye un diccionario de 93 marcadores del discurso griego, herramientas de análisis a nivel de texto para n-gramas y variantes, y comparación de registros mediante log-ratio.
  • Cuenta con búsqueda de expresiones regulares y una capa LLM opcional para anotación pragmática y modo de investigación libre.
  • Construido sobre índices de texto completo SQLite FTS5 con un backend FastAPI, desplegado como contenedores Docker en Azure bajo la licencia MIT.

Svarna sirve como una herramienta fundamental para explorar los datos griegos disponibles y se espera que apoye investigaciones más exhaustivas en el futuro.