本文介绍了 Svarna,这是一个免费、开源、基于 Web 的语料库工作台,旨在通过整合五个不同的数据库来解决现代希腊语技术中的空白。该平台将来自机构、文学、方言、社交媒体和历史记录的超过 5.07 亿个单词和约 2900 万个句子整合到一个无需登录或安装即可访问的统一界面中。

  • 整合了涵盖各种语域的五个数据库,提供超过 5.07 亿个单词和约 2900 万个句子。
  • 提供带有 KWIC 标记的索引 concordancer、按语域归一化的频率分析,以及使用互信息提取搭配。
  • 包含 93 个希腊语话语标记词典、用于 n-gram 和变体的文本级分析工具,以及通过 log-ratio 进行的语域比较。
  • 具备正则表达式搜索功能,并提供可选的 LLM 层用于语用标注和自由研究模式。
  • 基于 SQLite FTS5 全文索引构建,后端采用 FastAPI,以 Docker 容器形式部署在 Azure 上,遵循 MIT 许可证。

Svarna 作为探索现有希腊语数据的基础工具,预计将在未来支持更全面的研究。