Los autores presentan el Style Text Embedding Benchmark (STEB), un benchmark de código abierto integral diseñado para estandarizar la evaluación de las incrustaciones de estilo, que anteriormente se evaluaban mediante métodos fragmentados e inconsistentes.
- STEB abarca 96 conjuntos de datos en 7 idiomas.
- El benchmark cubre aplicaciones como verificación de autoría, recuperación de autoría, detección de texto generado por IA y análisis de características lingüísticas.
- Los resultados de la evaluación muestran que las incrustaciones semánticas fallan consistentemente en tareas estilísticas.
- Ninguna incrustación de estilo es universalmente superior en todas las tareas evaluadas.
STEB tiene como objetivo proporcionar un marco unificado para evaluar las incrustaciones de estilo, abordando la falta de métricas de evaluación estandarizadas en el campo.