Los investigadores proponen AIGP, un marco que utiliza Modelos de Lenguaje Grande para abordar la interpretabilidad y la desalineación de objetivos a largo plazo en la fijación dinámica de precios de comercio electrónico. El sistema emplea ajuste fino supervisado y un Estimador de Valor a Largo Plazo entrenado mediante aprendizaje por refuerzo offline para alinear las decisiones de precios con los objetivos comerciales.

  • Utiliza LLMs con prompts que incorporan conocimiento del dominio, datos estructurados y contexto textual para una fijación de precios interpretable.
  • Implementa un Estimador de Valor a Largo Plazo (LTVE) entrenado mediante aprendizaje por refuerzo offline como modelo de recompensa.
  • Aplica la Optimización Directa de Preferencias (DPO) para alinear la política de precios con los objetivos comerciales a largo plazo.
  • Logró un aumento del +13.21% en el GMV, +7.59% en el ROI y +8.20% en la tasa de cumplimiento de hitos en pruebas A/B de 14 días en Tao Factory.

El marco permite razones de precios interpretables y transparentes mientras mejora significativamente las métricas clave de rendimiento como el Valor Bruto de Mercancías (GMV) y el Retorno de la Inversión.