Количественная оценка согласованности между мерами влияния данных и сходства данных в LLM

В данном исследовании количественно оценивается согласованность между мерами сходства данных и влияния данных, используемыми для отслеживания выходов LLM обратно к обучающим данным, выявляя значительное пересечение с асимметрией, при которой влияние данных более последовательно ранжирует наиболее похожие документы. Эксперименты на моделях, включая OLMo2-1B, Qwen3-1.7B, LlaMa3.2-1B, Gemma3-1B и GPT2, демонстрируют, что эта асимметрия позволяет достичь выгодного компромисса между стоимостью и точностью за счет использования влияния данных для уточнения результатов более дешевого сходства данных.

Две меры ранжирования значительно согласуются, но влияние данных присваивает более последовательные ранги топ-документам сходства данных, чем наоборот.
Этот вывод справедлив для нескольких моделей: OLMo2-1B, Qwen3-1.7B, LlaMa3.2-1B, Gemma3-1B и GPT2.
Асимметрия используется для улучшения компромисса между стоимостью и точностью путем применения дорогостоящего влияния данных для уточнения результатов более дешевого сходства данных.

Этот результат помогает пользователям достигать лучшей точности в отслеживании выходов за счет использования дополнительного характера этих двух мер.