arxiv arXiv cs.CL · hace 1 h · fuente: hace 11 d · research

OPD-Evolver: Destilación on-policy para la evolución holística de agentes

Traducido del English → Español

OPD-Evolver introduce un marco de co-evolución lento-rápido que permite a los agentes seleccionar, actuar y reutilizar experiencias mediante auto-destilación on-policy. Supera a los métodos existentes basados en memoria y entrenamiento hasta en un 11.5% y un 5.8% respectivamente, y demuestra capacidad para desafiar modelos a gran escala como Qwen3.5-397B-A17B y Step-3.5-Flash.

Importancia 3/3 Supera un benchmark de un laboratorio puntero Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.CL Mistral AI Alibaba (Qwen) DeepSeek AI agents Evaluation & benchmarks Reasoning models

Leer original