본 논문은 현대 그리스어 언어 기술의 격차를 해소하기 위해 5개의 서로 다른 데이터베이스를 통합하도록 설계된 무료, 오픈소스, 웹 기반 코퍼스 워크벤치인 Svarna를 소개합니다. 이 플랫폼은 로그인이나 설치 없이 접근 가능한 단일 인터페이스에 기관, 문학, 방언, 소셜 미디어, 역사적 레지스터에서 수집된 5억 7천만 단어 이상과 약 2천 9백만 문장을 통합합니다.
- 다양한 레지스터를 커버하는 5개 데이터베이스를 통합하여 5억 7천만 단어 이상과 약 2천 9백만 문장을 제공합니다.
- KWIC 마킹이 있는 콘코더, 레지스터별 정규화 빈도 분석, 상호 정보량을 사용한 공출현 추출을 제공합니다.
- 93개 그리스어 담화 표지자의 사전, n-gram 및 변이체에 대한 텍스트 수준 분석 도구, 로그 비율을 통한 레지스터 비교를 포함합니다.
- 정규식 검색과 화용론적 주석 및 자유 연구 모드를 위한 선택적 LLM 레이어를 탑재했습니다.
- SQLite FTS5 전체 텍스트 인덱스와 FastAPI 백엔드를 기반으로 하며, MIT 라이선스 하에 Azure의 Docker 컨테이너로 배포됩니다.
Svarna는 사용 가능한 그리스어 데이터를 탐색하기 위한 기초 도구이며, 향후 더 포괄적인 연구를 지원할 것으로 기대됩니다.