本論文は、5つの異なるデータベースを統合することで現代ギリシャ語の言語技術におけるギャップに対応するよう設計された、無料かつオープンソースのWebベースのコーパスワークベンチであるSvarnaを紹介する。このプラットフォームは、登録やインストールなしでアクセス可能な単一のインターフェースに、機関、文学、方言、ソーシャルメディア、歴史的な文書から5億700万語以上、約2900万文を統合している。

  • さまざまな文書をカバーする5つのデータベースを統合し、5億700万語以上と約2900万文を提供する。
  • KWICマーク付きのコンコーダー、文書ごとの正規化による頻度分析、相互情報量を用いた共起抽出機能を提供する。
  • 93のギリシャ語談話マーカーの辞書、n-gramと変異体のテキストレベル分析ツール、対数比による文書比較を含む。
  • 正規表現検索と、実用的注釈および自由研究モードのためのオプションのLLM層を搭載。
  • SQLite FTS5全文インデックスとFastAPIバックエンドを基盤とし、MITライセンスの下でAzure上のDockerコンテナとしてデプロイ。

Svarnaは利用可能なギリシャ語データを探索するための基盤ツールであり、将来的にはより包括的な研究をサポートすることが期待されている。