Makalah ini memperkenalkan Svarna, sebuah bench kerja korpus berbasis web gratis dan open-source yang dirancang untuk mengatasi kesenjangan dalam teknologi bahasa Yunani modern dengan mengintegrasikan lima basis data berbeda. Platform ini menggabungkan lebih dari 507 juta kata dan sekitar 29 juta kalimat dari register institusional, sastra, dialek, media sosial, dan historis ke dalam satu antarmuka yang dapat diakses tanpa login atau instalasi.
- Mengintegrasikan lima basis data yang mencakup berbagai register untuk menyediakan lebih dari 507 juta kata dan sekitar 29 juta kalimat.
- Menawarkan konkordans dengan penandaan KWIC, analisis frekuensi dengan normalisasi per-register, dan ekstraksi kolokasi menggunakan informasi timbal balik.
- Termasuk kamus 93 penanda wacana Yunani, alat analisis tingkat teks untuk n-gram dan variannya, serta perbandingan register melalui rasio log.
- Dilengkapi dengan pencarian ekspresi reguler dan lapisan LLM opsional untuk anotasi pragmatik dan mode penelitian bebas.
- Dibangun di atas indeks teks penuh SQLite FTS5 dengan backend FastAPI, dideploy sebagai kontainer Docker di bawah lisensi MIT di Azure.
Svarna berfungsi sebagai alat dasar untuk mengeksplorasi data Yunani yang tersedia dan diharapkan dapat mendukung penelitian yang lebih komprehensif di masa depan.