Исследователи предлагают AIGP, систему, использующую большие языковые модели для решения проблем интерпретируемости и долгосрочного несоответствия целей в динамическом ценообразовании электронной коммерции. Система применяет контролируемое тонкое настраивание (supervised fine-tuning) и Оценщик долгосрочной ценности (Long-Term Value Estimator), обученный с помощью офлайн-усиленного обучения, для согласования решений по ценообразованию с бизнес-целями.

  • Использует LLM, подсказанные предметными знаниями, структурированными данными и текстовым контекстом для интерпретируемого ценообразования.
  • Внедряет Оценщик долгосрочной ценности (LTVE), обученный с помощью офлайн-усиленного обучения в качестве модели вознаграждения.
  • Применяет Прямую оптимизацию предпочтений (DPO) для согласования политики ценообразования с долгосрочными бизнес-целями.
  • Достигла +13,21% GMV, +7,59% ROI и +8,20% доли достижения вех в 14-дневных A/B тестах на Tao Factory.

Система обеспечивает интерпретируемые и прозрачные обоснования ценообразования, одновременно значительно улучшая ключевые показатели эффективности, такие как валовая товарная продукция (GMV) и возврат инвестиций (ROI).