В этой статье представлена Svarna — бесплатная, open-source, веб-ориентированная рабочая среда для корпусов, предназначенная для устранения пробелов в технологиях обработки современного греческого языка за счёт интеграции пяти различных баз данных. Платформа объединяет более 507 миллионов слов и около 29 миллионов предложений из институциональных, литературных, диалектных, социальных сетей и исторических регистров в едином интерфейсе, доступном без входа в систему или установки.

  • Интегрирует пять баз данных, охватывающих различные регистры, обеспечивая более 507 миллионов слов и около 29 миллионов предложений.
  • Предлагает конкорданс с маркировкой KWIC, анализ частотности с нормализацией по регистрам и извлечение коллокаций с использованием взаимной информации.
  • Включает словарь из 93 греческих дискурсивных маркеров, инструменты анализа текста на уровне n-грамм и вариантов, а также сравнение регистров через логарифмическое отношение (log-ratio).
  • Содержит поиск по регулярным выражениям и опциональный слой LLM для прагматической аннотации и свободного исследовательского режима.
  • Построена на полнотекстовых индексах SQLite FTS5 с бэкендом FastAPI, развернута как Docker-контейнеры в Azure под лицензией MIT.

Svarna служит фундаментальным инструментом для изучения доступных греческих данных и, как ожидается, поддержит более всесторонние исследования в будущем.