MedEvoEval: Evaluación de la evolución continua de agentes médicos mediante episodios clínicos simulados

Los autores presentan MedEvoEval, un marco de evaluación longitudinal ejecutable diseñado para evaluar la evolución continua de agentes médicos a través de episodios clínicos ambulatorios simulados. Este sistema va más allá de las evaluaciones estáticas al rastrear cómo los agentes adquieren evidencia, utilizan recursos y refinan su toma de decisiones a lo largo de múltiples interacciones.

El marco convierte los casos fuente en vistas específicas para el paciente, el examen y el gestor, revelando la evidencia únicamente mediante acciones válidas.
Cada episodio genera un rastro estructurado que vincula observaciones, acciones, resultados finales, puntuaciones del gestor y escritura opcional de experiencia.
Se ha publicado un artefacto ejecutable que contiene 700 episodios procesados, notas de procedencia, esquemas, un corredor de episodios, scripts de puntuación y código de análisis.
Los experimentos demuestran que los rastros de episodios revelan costos del proceso ocultos por la puntuación de la respuesta final y muestran cómo la consulta estilo MDT redistribuye los recursos.
El marco admite análisis longitudinales de maduración de memoria, transferencia con datos no vistos, respuesta en la etapa de actualización y retención inversa.

MedEvoEval proporciona una base concreta para evaluar si los agentes médicos mejoran mediante la experiencia, transfieren comportamientos útiles y conservan capacidades anteriores con el tiempo.