Исследователи предлагают AIGP, систему, использующую большие языковые модели для решения проблем интерпретируемости и долгосрочного несоответствия целей в динамическом ценообразовании электронной коммерции. Система применяет контролируемое тонкое настраивание (supervised fine-tuning) и Оценщик долгосрочной ценности (Long-Term Value Estimator), обученный с помощью офлайн-усиленного обучения, для согласования решений по ценообразованию с бизнес-целями.
- Использует LLM, подсказанные предметными знаниями, структурированными данными и текстовым контекстом для интерпретируемого ценообразования.
- Внедряет Оценщик долгосрочной ценности (LTVE), обученный с помощью офлайн-усиленного обучения в качестве модели вознаграждения.
- Применяет Прямую оптимизацию предпочтений (DPO) для согласования политики ценообразования с долгосрочными бизнес-целями.
- Достигла +13,21% GMV, +7,59% ROI и +8,20% доли достижения вех в 14-дневных A/B тестах на Tao Factory.
Система обеспечивает интерпретируемые и прозрачные обоснования ценообразования, одновременно значительно улучшая ключевые показатели эффективности, такие как валовая товарная продукция (GMV) и возврат инвестиций (ROI).