Независимый исследователь представил ZATRON (Zero-Access Transformed Retrieval Over Noise), метод, который преобразует эмбеддинги семантического поиска в нечитаемые модульные штрихкоды, сохраняя при этом качество поиска. Система использует проекцию PCA, квантование и криптографическое маскирование для предотвращения утечки структуры тем документов из векторных баз данных через кластеризацию.

  • Протестировано на MSMARCO с 626 906 документами: ZATRON сохраняет 98,2% качества косинусного поиска.
  • Производительность варьируется в зависимости от модели: MiniLM (98,2%), MPNet (99,2%) и BGE (86,6%).
  • Метод поддерживает качество более 88% для пяти языков, включая арабский, испанский, корейский, китайский и английский.
  • ZATRON в 8 раз быстрее полностью гоморфного шифрования (CKKS): 5 мс на сравнение против 38,9 мс.

Автор запрашивает техническую обратную связь от сообщества векторного поиска, поскольку подает заявку на патент на эту технику кодирования с сохранением конфиденциальности.