Los autores proponen ReM-MoA, un marco de trabajo Mixture-of-Agents aumentado con memoria diseñado para sostener las ganancias de rendimiento a medida que aumenta la profundidad del modelo, abordando los problemas de degradación y saturación encontrados en variantes existentes. El sistema utiliza una Memoria de Razonamiento Clasificada y un esquema de Enrutamiento de Memoria Diversa Curada para preservar la diversidad de exploración mientras se propagan trazas de razonamiento de alta calidad a través de las capas.

  • ReM-MoA emplea una Memoria de Razonamiento Clasificada que almacena y clasifica persistentemente las trazas de razonamiento de todas las capas utilizando un Agente Revisor comparativo.
  • Un esquema de Enrutamiento de Memoria Diversa Curada expone a diferentes agentes a combinaciones distintas de trazas exitosas y fallidas para mantener la diversidad de exploración.
  • Una tubería opcional de destilación de Revisores multi-dominio mejora la calidad del ranking mediante supervisión de modelos de frontera.
  • El marco de trabajo supera consistentemente a las variantes MoA anteriores en cinco benchmarks de razonamiento que abarcan matemáticas, lógica formal, código, conocimiento y sentido común.
  • Las ventajas de rendimiento se amplían con el aumento de la profundidad, estableciendo la memoria de razonamiento cruzada entre capas estructurada como un mecanismo clave para la inferencia multi-agente escalable.

Los autores consideran esto importante porque establece la memoria de razonamiento cruzada entre capas estructurada como un componente crítico faltante para lograr la inferencia multi-agente escalable, permitiendo que el rendimiento mejore en lugar de degradarse a medida que los sistemas se vuelven más profundos.