A3M: Aprendizaje adaptativo, adversarial y multiobjetivo para licitación estratégica en subastas repetidas
El marco A3M aborda los desafíos del aprendizaje de la estrategia de oferta en subastas repetidas de múltiples unidades mediante la integración de aprendizaje por refuerzo profundo adaptativo, razonamiento adversarial y diseño de recompensas multiobjetivo. Utiliza una arquitectura base actor-crítico y modelado de oponentes para optimizar la estrategia frente a adversarios no estacionarios mientras equilibra utilidad, ingresos y equidad.