Cuantificación del acuerdo entre influencia de datos y similitud de datos en LLMs

Este estudio cuantifica el acuerdo entre las medidas de similitud de datos e influencia de datos utilizadas para rastrear las salidas de los LLMs hasta los datos de entrenamiento, revelando una superposición significativa con una asimetría donde la influencia de datos clasifica más consistentemente los documentos más similares. Los experimentos en modelos como OLMo2-1B, Qwen3-1.7B, LlaMa3.2-1B, Gemma3-1B y GPT2 demuestran que esta asimetría permite una compensación favorable entre costo y precisión al usar la influencia de datos para refinar los resultados más económicos de la similitud de datos.

Las dos medidas de clasificación están significativamente de acuerdo, pero la influencia de datos asigna rangos más consistentes a los documentos principales de la similitud de datos que viceversa.
Este hallazgo se mantiene en múltiples modelos: OLMo2-1B, Qwen3-1.7B, LlaMa3.2-1B, Gemma3-1B y GPT2.
La asimetría se explota para mejorar las compensaciones costo-precisión utilizando la costosa influencia de datos para refinar los resultados de la más económica similitud de datos.

Este resultado ayuda a los usuarios a lograr una mejor precisión en el rastreo de salidas aprovechando la naturaleza complementaria de estas dos medidas.