В статье документируется, как измерения от проприетарных оценщиков LLM могут стать недействительными в течение нескольких недель, и предлагается рамка EPC для обнаружения такой нестабильности. Она применяется в восьми экспериментальных условиях, показывая, что версия-условная нестабильность делает исследования с одним снимком ненадежными.

  • Рамка EPC включает Индекс коллапса мультимодальных предпочтений (MPCI), матрицу связывания, индексированную оценщиком, и дивергенцию Дженсена-Шеннона (JSD).
  • Четыре условия показали сильную связь, включая GPT-4o May, GPT-4o-mini, Qwen3.7-plus и DashScope 30r.
  • Четыре условия коллапсировали до связи, близкой к нулю, включая GPT-4o June, qwen-plus, симметричную LR и самооценку DeepSeek.
  • Повторная репликация GPT-4o с мая по июнь инвертировала вывод исследования, подчеркивая значительный дрейф.
  • Самооценка постоянно коллапсировала с 97% нулевых значений и JSD 0.003.

Авторы считают это важным, потому что паттерн версия-условной нестабильности демонстрирует, что исследования с одним снимком ненадежны для оценки агентов LLM.