Les auteurs présentent le Style Text Embedding Benchmark (STEB), un benchmark open-source complet conçu pour standardiser l'évaluation des embeddings de style, qui ont jusqu'à présent été évalués à l'aide de méthodes fragmentées et incohérentes.

  • STEB englobe 96 ensembles de données sur 7 langues.
  • Le benchmark couvre des applications telles que la vérification d'auteur, la récupération d'auteur, la détection de texte IA et le sondage des caractéristiques linguistiques.
  • Les résultats d'évaluation montrent que les embeddings sémantiques échouent systématiquement dans les tâches stylistiques.
  • Aucun embedding de style n'est universellement supérieur sur toutes les tâches évaluées.

STEB vise à fournir un cadre unifié pour l'évaluation des embeddings de style, comblant le manque de métriques d'évaluation standardisées dans le domaine.