Исследователи представляют STEB для стандартизации оценки стилевых эмбеддингов

Авторы представляют Style Text Embedding Benchmark (STEB), всеобъемлющий открытый бенчмарк, разработанный для стандартизации оценки стилевых эмбеддингов, которые ранее оценивались с помощью фрагментированных и несогласованных методов.

STEB включает 96 наборов данных по 7 языкам.
Бенчмарк охватывает такие приложения, как проверка авторства, поиск авторства, обнаружение ИИ-текста и исследование лингвистических признаков.
Результаты оценки показывают, что семантические эмбеддинги последовательно терпят неудачу в стилистических задачах.
Ни один стилевой эмбеддинг не является универсально лучшим во всех оцененных задачах.

STEB стремится предоставить единую рамку для оценки стилевых эмбеддингов, устраняя отсутствие стандартизированных метрик оценки в этой области.