О стабильности ранжирования промптов при оценке больших языковых моделей
В данной работе систематически исследуется стабильность ранжирования промптов под воздействием типичных источников изменчивости, таких как случайные семена и ограниченные подмножества данных для оценки, на примере трех LLM с открытым весом и двух задач бенчмарков.