Los autores presentan MedEvoEval, un marco de evaluación longitudinal ejecutable diseñado para evaluar la evolución continua de agentes médicos a través de episodios clínicos ambulatorios simulados. Este sistema va más allá de las evaluaciones estáticas al rastrear cómo los agentes adquieren evidencia, utilizan recursos y refinan su toma de decisiones a lo largo de múltiples interacciones.
- El marco convierte los casos fuente en vistas específicas para el paciente, el examen y el gestor, revelando la evidencia únicamente mediante acciones válidas.
- Cada episodio genera un rastro estructurado que vincula observaciones, acciones, resultados finales, puntuaciones del gestor y escritura opcional de experiencia.
- Se ha publicado un artefacto ejecutable que contiene 700 episodios procesados, notas de procedencia, esquemas, un corredor de episodios, scripts de puntuación y código de análisis.
- Los experimentos demuestran que los rastros de episodios revelan costos del proceso ocultos por la puntuación de la respuesta final y muestran cómo la consulta estilo MDT redistribuye los recursos.
- El marco admite análisis longitudinales de maduración de memoria, transferencia con datos no vistos, respuesta en la etapa de actualización y retención inversa.
MedEvoEval proporciona una base concreta para evaluar si los agentes médicos mejoran mediante la experiencia, transfieren comportamientos útiles y conservan capacidades anteriores con el tiempo.