Ajuste fino de un modelo de incrustación invariante a la permutación para la recuperación de metadatos estructurados

El artículo demuestra que el orden de los campos impacta significativamente la calidad de la recuperación en sistemas de metadatos estructurados porque el ajuste fino estándar hace que los codificadores dependan de la posición absoluta en lugar de las etiquetas de campo. Para abordar esto, los autores proponen el Ajuste Fino Invariante a la Permutación (PI-FT), un método que serializa registros bajo órdenes de campo muestreadas aleatoriamente con dropout para vincular el significado a las etiquetas.

El ajuste fino estándar pierde 7.4 puntos nDCG@10 cuando cambia el orden de los campos del índice, mientras que PI-FT reduce esta penalización a 0.2 puntos.
El enfoque utiliza una modificación del cargador de datos que muestrea órdenes de campo frescas y aplica dropout aleatorio de campos durante el entrenamiento.
Un codificador de CPU con 118M parámetros ajustado finamente alcanza un nDCG@10 de 0.707 en el nuevo DevDataBench, superando a las líneas base de cero disparos como text-embedding-3-large (0.556).
El benchmark cubre consultas fundamentadas en 15 idiomas para casi 10,000 indicadores de estadísticas de desarrollo.

Este método asegura que los datos recuperables sigan siendo descubribles independientemente de las variaciones del esquema, lo cual es crítico para agentes de IA que median el acceso a estadísticas públicas donde los registros de uso no pueden proporcionar señales de entrenamiento para indicadores no buscados.