A3M: Aprendizaje adaptativo, adversarial y multiobjetivo para licitación estratégica en subastas repetidas

El marco A3M aborda los desafíos del aprendizaje de la estrategia de oferta en subastas repetidas de múltiples unidades mediante la integración de aprendizaje por refuerzo profundo adaptativo, razonamiento adversarial y diseño de recompensas multiobjetivo. Utiliza una arquitectura base actor-crítico y modelado de oponentes para optimizar la estrategia frente a adversarios no estacionarios mientras equilibra utilidad, ingresos y equidad.

Reduce el arrepentimiento final entre un 30% y un 40% en configuraciones estándar en comparación con las líneas base establecidas.
Mantiene un rendimiento robusto frente a cambios en la estrategia adversarial mediante juego ficticio.
Escala favorablemente con el número de unidades K y permite compensaciones ajustables entre múltiples objetivos.
Validado mediante evaluación empírica exhaustiva tanto en subastas de precios discriminatorios como uniformes.

Los autores establecen A3M como un marco poderoso y flexible para el aprendizaje en entornos de subastas complejos, demostrando que sus componentes centrales son necesarios para una estrategia de oferta efectiva.