Os autores apresentam o Style Text Embedding Benchmark (STEB), um benchmark open-source abrangente projetado para padronizar a avaliação de embeddings de estilo, que anteriormente eram avaliados usando métodos fragmentados e inconsistentes.
- O STEB abrange 96 conjuntos de dados em 7 idiomas.
- O benchmark cobre aplicações como verificação de autoria, recuperação de autoria, detecção de texto gerado por IA e sondagem de características linguísticas.
- Os resultados da avaliação mostram que os embeddings semânticos falham consistentemente em tarefas estilísticas.
- Nenhum embedding de estilo é universalmente superior em todas as tarefas avaliadas.
O STEB visa fornecer um framework unificado para avaliar embeddings de estilo, abordando a falta de métricas de avaliação padronizadas na área.