О стабильности ранжирования промптов при оценке больших языковых моделей

В данной работе систематически исследуется стабильность ранжирования промптов под воздействием типичных источников изменчивости, таких как случайные семена и ограниченные подмножества данных для оценки, на примере трех LLM с открытым весом и двух задач бенчмарков.

Общая корреляция рангов часто является умеренной или высокой, однако идентичность промпта с наилучшими результатами часто меняется.
Эта нестабильность приводит к ненадежным решениям при выборе для последующего использования.
Авторы предлагают стратегию выбора, учитывающую стабильность, основанную на нижней доверительной границе, которая учитывает как производительность, так и дисперсию.
Этот подход повышает устойчивость в нестабильных условиях, оставаясь конкурентоспособным в более стабильных режимах.

Эти результаты подчеркивают важность учета неопределенности оценки при выборе промптов и бенчмаркинге LLM.