독립 연구자가 의미 검색 임베딩을 읽을 수 없는 모듈식 바코드로 변환하면서 검색 품질을 유지하는 방법인 ZATRON(Zero-Access Transformed Retrieval Over Noise)을 소개했습니다. 이 시스템은 PCA 투영, 양자화 및 암호화 마스킹을 사용하여 벡터 데이터베이스가 클러스터링을 통해 문서 주제 구조를 유출하는 것을 방지합니다.

  • MSMARCO의 626,906개 문서로 테스트한 결과, ZATRON은 코사인 검색 품질의 98.2%를 유지합니다.
  • 모델별 성능 차이: MiniLM(98.2%), MPNet(99.2%), BGE(86.6%).
  • 이 방법은 아랍어, 스페인어, 한국어, 중국어, 영어를 포함한 5개 언어에서 88% 이상의 품질을 유지합니다.
  • ZATRON은 완전 동형 암호화(CKKS)보다 8배 빠르며, 비교당 5ms가 소요되는 반면 CKKS는 38.9ms가 소요됩니다.

저자는 이 프라이버시 보호 인코딩 기술에 대한 특허 출원 중이며 벡터 검색 커뮤니티로부터 기술적 피드백을 받고 있습니다.