В данной работе систематически исследуется стабильность ранжирования промптов под воздействием типичных источников изменчивости, таких как случайные семена и ограниченные подмножества данных для оценки, на примере трех LLM с открытым весом и двух задач бенчмарков.
- Общая корреляция рангов часто является умеренной или высокой, однако идентичность промпта с наилучшими результатами часто меняется.
- Эта нестабильность приводит к ненадежным решениям при выборе для последующего использования.
- Авторы предлагают стратегию выбора, учитывающую стабильность, основанную на нижней доверительной границе, которая учитывает как производительность, так и дисперсию.
- Этот подход повышает устойчивость в нестабильных условиях, оставаясь конкурентоспособным в более стабильных режимах.
Эти результаты подчеркивают важность учета неопределенности оценки при выборе промптов и бенчмаркинге LLM.