著者らは、Style Text Embedding Benchmark (STEB) を導入しました。これは、従来断片的で不整合な手法で評価されてきたスタイル埋め込みの評価を標準化するために設計された包括的なオープンソースベンチマークです。

  • STEBは7言語にわたる96のデータセットを含みます。
  • このベンチマークは、著者確認、著者検索、AIテキスト検出、言語的特徴のプロbingなど、さまざまなアプリケーションをカバーしています。
  • 評価結果により、セマンティック埋め込みはスタイルタスクで一貫して失敗することが示されました。
  • 評価されたすべてのタスクにおいて、単一のスタイル埋め込みが普遍的に優れているわけではありません。

STEBは、分野における標準化された評価指標の欠如に対処し、スタイル埋め込みの評価のための統一されたフレームワークを提供することを目指しています。