El artículo presenta ScaleToT, un método que aprende razonamiento estructurado a partir de un pequeño subconjunto de usuarios y lo extiende a miles de millones de usuarios de baja actividad con perfiles dispersos. Combina un refinamiento de Tree-of-Thought guiado por entropía acotada con ajuste fino supervisado y optimización de la política de recompensa para transferir capacidades de razonamiento sin inferencia completa de LLM.

  • Construye cadenas de estado de usuario tipadas utilizando un procedimiento de refinamiento de Tree-of-Thought (ToT) guiado por entropía acotada.
  • Entrena un modelo estudiante en perfiles estáticos mediante ajuste fino supervisado (SFT) y Optimización de la Política de Recompensa Implícita Segmentaria Conducida por Resultados (OSIPO).
  • Transfiere representaciones de razonamiento a un codificador de perfil ligero para proporcionar señales compartidas para los usuarios restantes.
  • Evaluado en la predicción del valor de vida útil (LTV) en un despliegue publicitario a escala de miles de millones, cubriendo solo el 7.32% de la población fuera de línea.

ScaleToT aumenta LT30 un 6.738% en pruebas A/B en línea mientras reduce significativamente los costos de computación en comparación con el razonamiento de toda la población.