यह पेपर Svarna का परिचय देता है, जो एक मुफ्त, ओपन-सोर्स, वेब-आधारित कोरस वर्कबेंच है जिसे पांच अलग-अलग डेटाबेस को एकीकृत करके आधुनिक ग्रीक भाषा प्रौद्योगिकी में अंतराल को दूर करने के लिए डिज़ाइन किया गया है। प्लेटफ़ॉर्म इंस्टीट्यूशनल, साहित्यिक, बोलचाल, सोशल मीडिया और ऐतिहासिक रजिस्टर से 507 मिलियन से अधिक शब्दों और लगभग 29 मिलियन वाक्यों को एक ऐसे इंटरफ़ेस में समेटता है जिसमें लॉगिन या इंस्टॉलेशन की आवश्यकता नहीं होती।
- विभिन्न रजिस्टर को कवर करने वाले पांच डेटाबेस को एकीकृत करता है, जिससे 507 मिलियन से अधिक शब्द और लगभग 29 मिलियन वाक्य प्रदान होते हैं।
- KWIC मार्किंग के साथ एक कॉंकॉर्डेंसर, रजिस्टर-दर-रजिस्टर नॉर्मलाइज़ेशन के साथ फ्रीक्वेंसी विश्लेषण, और म्यूचुअल इन्फ़ॉर्मेशन का उपयोग करके कोलोकेशन एक्सट्रैक्शन प्रदान करता है।
- 93 ग्रीक डिस्कर्स मार्करों का एक शब्दकोश, n-grams और वेरिएंट्स के लिए टेक्स्ट-लेवल विश्लेषण टूल्स, और log-ratio के माध्यम से रजिस्टर तुलना शामिल है।
- नियमित अभिव्यक्ति खोज और व्यावहारिक एनोटेशन व मुक्त शोध मोड के लिए एक वैकल्पिक LLM परत की सुविधा देता है।
- SQLite FTS5 फुल-टेस्ट इंडेक्स और FastAPI बैकएंड पर निर्मित, MIT लाइसेंस के तहत Azure पर Docker कंटेनर के रूप में डिप्लॉय किया गया।
Svarna उपलब्ध ग्रीक डेटा का अन्वेषण करने के लिए एक मौलिक उपकरण के रूप में कार्य करता है और भविष्य में अधिक व्यापक शोध का समर्थन करने की उम्मीद है।