一位独立研究人员推出了 ZATRON(Zero-Access Transformed Retrieval Over Noise),该方法将语义搜索嵌入转换为不可读的模块化条形码,同时保持检索质量。该系统使用 PCA 投影、量化和加密掩码来防止向量数据库通过聚类泄露文档主题结构。

  • 在包含 626,906 份文档的 MSMARCO 上进行测试,ZATRON 保留了 98.2% 的余弦搜索质量。
  • 性能因模型而异:MiniLM(98.2%)、MPNet(99.2%)和 BGE(86.6%)。
  • 该方法在包括阿拉伯语、西班牙语、韩语、中文和英语在内的五种语言中保持了超过 88% 的质量。
  • ZATRON 比全同态加密 (CKKS) 快 8 倍,每次比较耗时 5ms,而 CKKS 为 38.9ms。

作者正在向向量搜索社区寻求技术反馈,同时为该隐私保护编码技术申请专利。