Qwen-AgentWorld: Modelos de mundo lingüístico para agentes generales

Qwen-AgentWorld-35B-A3B y Qwen-AgentWorld-397B-A17B son los primeros modelos de mundo lingüístico que simulan entornos agénticos en siete dominios utilizando razonamiento de cadena de pensamiento largo. Entrenados mediante una canalización de tres etapas—CPT, SFT y RL—estos modelos superan a los modelos fronterizos existentes en AgentWorldBench, un benchmark derivado de interacciones del mundo real de cinco modelos en nueve tareas establecidas.