A3M: Адаптивное, состязательное и многокритериальное обучение для стратегического участия в повторяющихся аукционах

Фреймворк A3M решает задачи обучения ставкам в повторяющихся многопредметных аукционах за счет интеграции адаптивного глубокого обучения с подкреплением, состязательного рассуждения и проектирования многокритериальной функции вознаграждения. Он использует архитектуру actor-critic и моделирование оппонентов для оптимизации стратегии против нестационарных противников, балансируя между полезностью, доходом и справедливостью.

Снижает итоговый регрет на 30--40% в стандартных настройках по сравнению с устоявшимися базовыми методами.
Поддерживает устойчивую производительность при состязательных изменениях стратегии оппонента благодаря фиктивному воспроизведению (fictitious play).
Благоприятно масштабируется с увеличением числа предметов K и позволяет настраивать многокритериальные компромиссы.
Валидирован посредством всесторонней эмпирической оценки как в аукционах с дискриминационными ценами, так и с единой ценой.

Авторы демонстрируют A3M как мощный и гибкий фреймворк для обучения в сложных аукционных средах, показывая, что его основные компоненты необходимы для эффективного стратегического участия.