A3M: Адаптивное, состязательное и многокритериальное обучение для стратегического участия в повторяющихся аукционах
Фреймворк A3M решает задачи обучения ставкам в повторяющихся многопредметных аукционах за счет интеграции адаптивного глубокого обучения с подкреплением, состязательного рассуждения и проектирования многокритериальной функции вознаграждения. Он использует архитектуру actor-critic и моделирование оппонентов для оптимизации стратегии против нестационарных противников, балансируя между полезностью, доходом и справедливостью.