В данном исследовании количественно оценивается согласованность между мерами сходства данных и влияния данных, используемыми для отслеживания выходов LLM обратно к обучающим данным, выявляя значительное пересечение с асимметрией, при которой влияние данных более последовательно ранжирует наиболее похожие документы. Эксперименты на моделях, включая OLMo2-1B, Qwen3-1.7B, LlaMa3.2-1B, Gemma3-1B и GPT2, демонстрируют, что эта асимметрия позволяет достичь выгодного компромисса между стоимостью и точностью за счет использования влияния данных для уточнения результатов более дешевого сходства данных.
- Две меры ранжирования значительно согласуются, но влияние данных присваивает более последовательные ранги топ-документам сходства данных, чем наоборот.
- Этот вывод справедлив для нескольких моделей: OLMo2-1B, Qwen3-1.7B, LlaMa3.2-1B, Gemma3-1B и GPT2.
- Асимметрия используется для улучшения компромисса между стоимостью и точностью путем применения дорогостоящего влияния данных для уточнения результатов более дешевого сходства данных.
Этот результат помогает пользователям достигать лучшей точности в отслеживании выходов за счет использования дополнительного характера этих двух мер.