Дообучение модели встраивания, инвариантной к перестановкам, для извлечения структурированных метаданных

В статье показано, что порядок полей существенно влияет на качество извлечения в системах структурированных метаданных, поскольку стандартное дообучение заставляет кодировщики опираться на абсолютную позицию, а не на метки полей. Для решения этой проблемы авторы предлагают метод PI-FT (Permutation-Invariant Fine-Tuning), который сериализует записи с использованием случайно выбранных порядков полей и dropout для привязки смысла к меткам.

Стандартное дообучение теряет 7,4 балла nDCG@10 при изменении порядка полей индекса, тогда как PI-FT снижает этот штраф до 0,2 балла.
Подход использует модификацию загрузчика данных, который выбирает новые порядки полей и применяет случайный dropout по полям во время обучения.
Дообученный CPU-кодировщик с 118 млн параметров достигает nDCG@10 = 0,707 на новом наборе DevDataBench, превосходя zero-shot базовые модели, такие как text-embedding-3-large (0,556).
Бенчмарк охватит grounded-запросы на 15 языках для почти 10 000 индикаторов развития.

Этот метод гарантирует, что извлекаемые данные остаются обнаруживаемыми независимо от вариаций схемы, что критически важно для AI-агентов, опосредующих доступ к публичной статистике, где логи использования не могут предоставлять обучающие сигналы для неисследованных индикаторов.