MedEvoEval: Оценка непрерывной эволюции агентов-врачей через смоделированные клинические эпизоды
Авторы представляют MedEvoEval, исполняемую лонгитюдную систему оценки, предназначенную для оценки непрерывной эволюции агентов-врачей через смоделированные амбулаторные клинические эпизоды. Эта система выходит за рамки статических бенчмарков, отслеживая, как агенты накапливают доказательства, используют ресурсы и совершенствуют принятие решений в ходе множественных взаимодействий.