El marco A3M aborda los desafíos del aprendizaje de la estrategia de oferta en subastas repetidas de múltiples unidades mediante la integración de aprendizaje por refuerzo profundo adaptativo, razonamiento adversarial y diseño de recompensas multiobjetivo. Utiliza una arquitectura base actor-crítico y modelado de oponentes para optimizar la estrategia frente a adversarios no estacionarios mientras equilibra utilidad, ingresos y equidad.
- Reduce el arrepentimiento final entre un 30% y un 40% en configuraciones estándar en comparación con las líneas base establecidas.
- Mantiene un rendimiento robusto frente a cambios en la estrategia adversarial mediante juego ficticio.
- Escala favorablemente con el número de unidades K y permite compensaciones ajustables entre múltiples objetivos.
- Validado mediante evaluación empírica exhaustiva tanto en subastas de precios discriminatorios como uniformes.
Los autores establecen A3M como un marco poderoso y flexible para el aprendizaje en entornos de subastas complejos, demostrando que sus componentes centrales son necesarios para una estrategia de oferta efectiva.