ReM-MoA: La memoria de razonamiento sostiene la escalabilidad de Mixture-of-Agents

Los autores proponen ReM-MoA, un marco de trabajo Mixture-of-Agents aumentado con memoria diseñado para sostener las ganancias de rendimiento a medida que aumenta la profundidad del modelo, abordando los problemas de degradación y saturación encontrados en variantes existentes. El sistema utiliza una Memoria de Razonamiento Clasificada y un esquema de Enrutamiento de Memoria Diversa Curada para preservar la diversidad de exploración mientras se propagan trazas de razonamiento de alta calidad a través de las capas.

ReM-MoA emplea una Memoria de Razonamiento Clasificada que almacena y clasifica persistentemente las trazas de razonamiento de todas las capas utilizando un Agente Revisor comparativo.
Un esquema de Enrutamiento de Memoria Diversa Curada expone a diferentes agentes a combinaciones distintas de trazas exitosas y fallidas para mantener la diversidad de exploración.
Una tubería opcional de destilación de Revisores multi-dominio mejora la calidad del ranking mediante supervisión de modelos de frontera.
El marco de trabajo supera consistentemente a las variantes MoA anteriores en cinco benchmarks de razonamiento que abarcan matemáticas, lógica formal, código, conocimiento y sentido común.
Las ventajas de rendimiento se amplían con el aumento de la profundidad, estableciendo la memoria de razonamiento cruzada entre capas estructurada como un mecanismo clave para la inferencia multi-agente escalable.

Los autores consideran esto importante porque establece la memoria de razonamiento cruzada entre capas estructurada como un componente crítico faltante para lograr la inferencia multi-agente escalable, permitiendo que el rendimiento mejore en lugar de degradarse a medida que los sistemas se vuelven más profundos.