OPD-Evolver introduce un marco de co-evolución lento-rápido que permite a los agentes seleccionar, actuar y reutilizar experiencias mediante auto-destilación on-policy. Supera a los métodos existentes basados en memoria y entrenamiento hasta en un 11.5% y un 5.8% respectivamente, y demuestra capacidad para desafiar modelos a gran escala como Qwen3.5-397B-A17B y Step-3.5-Flash.