Cet article présente Svarna, un atelier de corpus web gratuit et open-source conçu pour combler les lacunes dans la technologie linguistique du grec moderne en intégrant cinq bases de données distinctes. La plateforme consolide plus de 507 millions de mots et environ 29 millions de phrases provenant de registres institutionnels, littéraires, dialectaux, des réseaux sociaux et historiques au sein d'une interface unique accessible sans connexion ni installation.

  • Intègre cinq bases de données couvrant divers registres pour fournir plus de 507 millions de mots et environ 29 millions de phrases.
  • Offre un concordancier avec marquage KWIC, une analyse de fréquence avec normalisation registre par registre, et l'extraction de collocations à l'aide de l'information mutuelle.
  • Comprend un dictionnaire de 93 marqueurs discursifs grecs, des outils d'analyse textuelle pour les n-grammes et leurs variantes, ainsi qu'une comparaison de registres via le rapport logarithmique.
  • Dispose d'une recherche par expression régulière et d'une couche LLM optionnelle pour l'annotation pragmatique et le mode de recherche libre.
  • Construit sur des index de texte complet SQLite FTS5 avec un backend FastAPI, déployé en tant que conteneurs Docker sur Azure sous licence MIT.

Svarna sert d'outil fondamental pour explorer les données grecques disponibles et devrait soutenir des recherches plus complètes à l'avenir.