独立研究者が、意味検索の埋め込みを読み取り不能なモジュール式バーコードに変換しつつ検索品質を保持する手法であるZATRON(Zero-Access Transformed Retrieval Over Noise)を紹介した。このシステムは、PCA射影、量子化、および暗号化マスクを使用して、ベクトルデータベースがクラスタリングを通じて文書のトピック構造を漏洩することを防止する。
- MSMARCOで626,906件のドキュメントを用いてテストされ、ZATRONはコサイン検索品質の98.2%を保持している。
- モデルによって性能が異なる:MiniLM(98.2%)、MPNet(99.2%)、BGE(86.6%)。
- この手法は、アラビア語、スペイン語、韓国語、中国語、英語を含む5つの言語で88%以上の品質を維持する。
- ZATRONは完全同種暗号(CKKS)と比較して8倍高速であり、比較あたり5msであるのに対し、CKKSは38.9msかかる。
著者はこのプライバシー保護型エンコーディング技術の特許出願中であり、ベクトル検索コミュニティから技術的なフィードバックを求めている。