作者推出了 Style Text Embedding Benchmark (STEB),这是一个全面的开源基准,旨在标准化对风格嵌入的评估,而此前这些评估一直采用碎片化和不一致的方法进行。

  • STEB 涵盖 7 种语言中的 96 个数据集。
  • 该基准测试涵盖了诸如作者身份验证、作者身份检索、AI 文本检测以及语言学特征探测等应用。
  • 评估结果表明,语义嵌入在风格化任务中 consistently 失败。
  • 没有任何一种风格嵌入在所有评估的任务中都普遍优于其他。

STEB 旨在提供一个统一的框架来评估风格嵌入,解决该领域缺乏标准化评估指标的问题。