В данной работе систематически исследуется стабильность ранжирования промптов под воздействием типичных источников изменчивости, таких как случайные семена и ограниченные подмножества данных для оценки, на примере трех LLM с открытым весом и двух задач бенчмарков.

  • Общая корреляция рангов часто является умеренной или высокой, однако идентичность промпта с наилучшими результатами часто меняется.
  • Эта нестабильность приводит к ненадежным решениям при выборе для последующего использования.
  • Авторы предлагают стратегию выбора, учитывающую стабильность, основанную на нижней доверительной границе, которая учитывает как производительность, так и дисперсию.
  • Этот подход повышает устойчивость в нестабильных условиях, оставаясь конкурентоспособным в более стабильных режимах.

Эти результаты подчеркивают важность учета неопределенности оценки при выборе промптов и бенчмаркинге LLM.