Диагностическая рамка и многооценочный аудит динамики предпочтений, управляемой оценщиком, в самоадаптирующихся агентах LLM
В статье документируется, как измерения от проприетарных оценщиков LLM могут стать недействительными в течение нескольких недель, и предлагается рамка EPC для обнаружения такой нестабильности. Она применяется в восьми экспериментальных условиях, показывая, что версия-условная нестабильность делает исследования с одним снимком ненадежными.