В этой статье представлена Svarna — бесплатная, open-source, веб-ориентированная рабочая среда для корпусов, предназначенная для устранения пробелов в технологиях обработки современного греческого языка за счёт интеграции пяти различных баз данных. Платформа объединяет более 507 миллионов слов и около 29 миллионов предложений из институциональных, литературных, диалектных, социальных сетей и исторических регистров в едином интерфейсе, доступном без входа в систему или установки.
- Интегрирует пять баз данных, охватывающих различные регистры, обеспечивая более 507 миллионов слов и около 29 миллионов предложений.
- Предлагает конкорданс с маркировкой KWIC, анализ частотности с нормализацией по регистрам и извлечение коллокаций с использованием взаимной информации.
- Включает словарь из 93 греческих дискурсивных маркеров, инструменты анализа текста на уровне n-грамм и вариантов, а также сравнение регистров через логарифмическое отношение (log-ratio).
- Содержит поиск по регулярным выражениям и опциональный слой LLM для прагматической аннотации и свободного исследовательского режима.
- Построена на полнотекстовых индексах SQLite FTS5 с бэкендом FastAPI, развернута как Docker-контейнеры в Azure под лицензией MIT.
Svarna служит фундаментальным инструментом для изучения доступных греческих данных и, как ожидается, поддержит более всесторонние исследования в будущем.