El marco EDV introduce un paradigma Ejecitar-Destilar-Verificar para superar la trampa de autoconfirmación en agentes de modelos de lenguaje grandes. Al utilizar múltiples agentes para explorar tareas, un agente de tercera parte para destilar experiencias y un paso de verificación basado en consenso, EDV asegura que solo se almacenen experiencias precisas en la memoria. La evaluación en tau2-bench, Mind2Web y MMTB muestra que EDV supera a las bases fuertes, demostrando su efectividad para habilitar una autoevolución robusta del agente.
El marco EDV permite el aprendizaje de experiencias confiables para sistemas agénticos
Traducido del English → Español