arxiv arXiv cs.CL · 1 小时前 · 来源： 5 天前 · research

研究人员推出 STEB 以标准化风格嵌入评估

译自 English → 中文

作者推出了 Style Text Embedding Benchmark (STEB)，这是一个全面的开源基准，旨在标准化对风格嵌入的评估，而此前这些评估一直采用碎片化和不一致的方法进行。

STEB 涵盖 7 种语言中的 96 个数据集。
该基准测试涵盖了诸如作者身份验证、作者身份检索、AI 文本检测以及语言学特征探测等应用。
评估结果表明，语义嵌入在风格化任务中 consistently 失败。
没有任何一种风格嵌入在所有评估的任务中都普遍优于其他。

STEB 旨在提供一个统一的框架来评估风格嵌入，解决该领域缺乏标准化评估指标的问题。

重要性 2/3 具有差异化优势的新评测框架 arXiv cs.CL Evaluation & benchmarks Research paper