Фреймворк A3M решает задачи обучения ставкам в повторяющихся многопредметных аукционах за счет интеграции адаптивного глубокого обучения с подкреплением, состязательного рассуждения и проектирования многокритериальной функции вознаграждения. Он использует архитектуру actor-critic и моделирование оппонентов для оптимизации стратегии против нестационарных противников, балансируя между полезностью, доходом и справедливостью.
- Снижает итоговый регрет на 30--40% в стандартных настройках по сравнению с устоявшимися базовыми методами.
- Поддерживает устойчивую производительность при состязательных изменениях стратегии оппонента благодаря фиктивному воспроизведению (fictitious play).
- Благоприятно масштабируется с увеличением числа предметов K и позволяет настраивать многокритериальные компромиссы.
- Валидирован посредством всесторонней эмпирической оценки как в аукционах с дискриминационными ценами, так и с единой ценой.
Авторы демонстрируют A3M как мощный и гибкий фреймворк для обучения в сложных аукционных средах, показывая, что его основные компоненты необходимы для эффективного стратегического участия.