Los investigadores presentan Agents-A1, un modelo Mixture-of-Experts de 35B que logra un rendimiento comparable al de modelos de billones de parámetros escalando el horizonte del agente en lugar del conteo de parámetros. El enfoque se centra en extender trayectorias de largo alcance y unificar habilidades heterogéneas de agentes a través de una infraestructura de entrenamiento especializada.
- Agents-A1 utiliza una infraestructura de conocimiento-acción de largo horizonte que produce trayectorias agenticas con una longitud promedio de 45K tokens.
- El entrenamiento sigue una receta de tres etapas: ajuste fino supervisado de dominio completo, entrenamiento del modelo maestro a nivel de dominio y destilación on-policy multi-maestro con enrutamiento por dominio.
- El modelo unifica seis dominios heterogéneos en un único modelo estudiante desplegable mediante alineación de vocabulario saliente para una transferencia de conocimiento eficiente.
- Agents-A1 supera a modelos de billones de parámetros como Kimi-K2.6 y DeepSeek-V4-pro en benchmarks que incluyen SEAL-0 (56.4), IFBench (80.6), HiPhO (46.4), FrontierScience-Olympiad (79.0) y MolBench-Bind (56.8).
Este trabajo ofrece un camino práctico para escalar los horizontes de agentes, demostrando que un modelo de 35B puede igualar el rendimiento de modelos significativamente más grandes en tareas de largo alcance.