Os autores apresentam o Style Text Embedding Benchmark (STEB), um benchmark open-source abrangente projetado para padronizar a avaliação de embeddings de estilo, que anteriormente eram avaliados usando métodos fragmentados e inconsistentes.

  • O STEB abrange 96 conjuntos de dados em 7 idiomas.
  • O benchmark cobre aplicações como verificação de autoria, recuperação de autoria, detecção de texto gerado por IA e sondagem de características linguísticas.
  • Os resultados da avaliação mostram que os embeddings semânticos falham consistentemente em tarefas estilísticas.
  • Nenhum embedding de estilo é universalmente superior em todas as tarefas avaliadas.

O STEB visa fornecer um framework unificado para avaliar embeddings de estilo, abordando a falta de métricas de avaliação padronizadas na área.