ScaleToT: Generalización del razonamiento estructurado de LLM para la modelización de usuarios de baja actividad a escala de miles de millones
El artículo presenta ScaleToT, un método que aprende razonamiento estructurado a partir de un pequeño subconjunto de usuarios y lo extiende a miles de millones de usuarios de baja actividad con perfiles dispersos. Combina un refinamiento de Tree-of-Thought guiado por entropía acotada con ajuste fino supervisado y optimización de la política de recompensa para transferir capacidades de razonamiento sin inferencia completa de LLM.