Los autores proponen ReM-MoA, un marco de trabajo Mixture-of-Agents aumentado con memoria diseñado para sostener las ganancias de rendimiento a medida que aumenta la profundidad del modelo, abordando los problemas de degradación y saturación encontrados en variantes existentes. El sistema utiliza una Memoria de Razonamiento Clasificada y un esquema de Enrutamiento de Memoria Diversa Curada para preservar la diversidad de exploración mientras se propagan trazas de razonamiento de alta calidad a través de las capas.
- ReM-MoA emplea una Memoria de Razonamiento Clasificada que almacena y clasifica persistentemente las trazas de razonamiento de todas las capas utilizando un Agente Revisor comparativo.
- Un esquema de Enrutamiento de Memoria Diversa Curada expone a diferentes agentes a combinaciones distintas de trazas exitosas y fallidas para mantener la diversidad de exploración.
- Una tubería opcional de destilación de Revisores multi-dominio mejora la calidad del ranking mediante supervisión de modelos de frontera.
- El marco de trabajo supera consistentemente a las variantes MoA anteriores en cinco benchmarks de razonamiento que abarcan matemáticas, lógica formal, código, conocimiento y sentido común.
- Las ventajas de rendimiento se amplían con el aumento de la profundidad, estableciendo la memoria de razonamiento cruzada entre capas estructurada como un mecanismo clave para la inferencia multi-agente escalable.
Los autores consideran esto importante porque establece la memoria de razonamiento cruzada entre capas estructurada como un componente crítico faltante para lograr la inferencia multi-agente escalable, permitiendo que el rendimiento mejore en lugar de degradarse a medida que los sistemas se vuelven más profundos.