Авторы представляют Style Text Embedding Benchmark (STEB), всеобъемлющий открытый бенчмарк, разработанный для стандартизации оценки стилевых эмбеддингов, которые ранее оценивались с помощью фрагментированных и несогласованных методов.

  • STEB включает 96 наборов данных по 7 языкам.
  • Бенчмарк охватывает такие приложения, как проверка авторства, поиск авторства, обнаружение ИИ-текста и исследование лингвистических признаков.
  • Результаты оценки показывают, что семантические эмбеддинги последовательно терпят неудачу в стилистических задачах.
  • Ни один стилевой эмбеддинг не является универсально лучшим во всех оцененных задачах.

STEB стремится предоставить единую рамку для оценки стилевых эмбеддингов, устраняя отсутствие стандартизированных метрик оценки в этой области.