Un chercheur indépendant a présenté ZATRON (Zero-Access Transformed Retrieval Over Noise), une méthode qui transforme les embeddings de recherche sémantique en codes-barres modulaires illisibles tout en préservant la qualité de la récupération. Le système utilise la projection PCA, la quantification et le masquage cryptographique pour empêcher les bases de données vectorielles de fuir les structures de sujets des documents via le clustering.
- Testé sur MSMARCO avec 626 906 documents, ZATRON préserve 98,2 % de la qualité de recherche cosinus.
- Les performances varient selon le modèle : MiniLM (98,2 %), MPNet (99,2 %) et BGE (86,6 %).
- La méthode maintient une qualité supérieure à 88 % sur cinq langues, dont l'arabe, l'espagnol, le coréen, le chinois et l'anglais.
- ZATRON est 8 fois plus rapide que le chiffnement homomorphe complet (CKKS) à 5 ms par comparaison contre 38,9 ms.
L'auteur sollicite des retours techniques de la communauté de la recherche vectorielle alors qu'il dépose un brevet pour cette technique d'encodage préservant la vie privée.