Авторы представляют MedEvoEval, исполняемую лонгитюдную систему оценки, предназначенную для оценки непрерывной эволюции агентов-врачей через смоделированные амбулаторные клинические эпизоды. Эта система выходит за рамки статических бенчмарков, отслеживая, как агенты накапливают доказательства, используют ресурсы и совершенствуют принятие решений в ходе множественных взаимодействий.

  • Система преобразует исходные случаи в роли-специфичные представления пациента, осмотра и менеджера, раскрывая доказательства только через допустимые действия.
  • Каждый эпизод генерирует структурированный трассировочный файл, связывающий наблюдения, действия, конечные выводы, оценки менеджера и необязательную запись опыта обратно в память.
  • Опубликован исполняемый артефакт, содержащий 700 обработанных эпизодов, заметки о происхождении данных, схемы, раннер эпизодов, скрипты оценки и код анализа.
  • Эксперименты показывают, что трассировки эпизодов выявляют затраты процесса, скрытые при оценке по финальному ответу, и демонстрируют, как консультация в стиле MDT перераспределяет ресурсы.
  • Система поддерживает лонгитюдный анализ созревания памяти, передачи на отложенных данных, реакции на этапе обновления и обратной удерживаемости.

MedEvoEval обеспечивает конкретную основу для оценки того, улучшаются ли агенты-врачи благодаря опыту, передают ли полезное поведение и сохраняют ли ранние способности с течением времени.