arxiv
arXiv cs.LG
·
hace 9 h
Cuantificación del acuerdo entre influencia de datos y similitud de datos en LLMs
Este estudio cuantifica el acuerdo entre las medidas de similitud de datos e influencia de datos utilizadas para rastrear las salidas de los LLMs hasta los datos de entrenamiento, revelando una superposición significativa con una asimetría donde la influencia de datos clasifica más consistentemente los documentos más similares. Los experimentos en modelos como OLMo2-1B, Qwen3-1.7B, LlaMa3.2-1B, Gemma3-1B y GPT2 demuestran que esta asimetría permite una compensación favorable entre costo y precisión al usar la influencia de datos para refinar los resultados más económicos de la similitud de datos.