В статье представлена методика ScaleToT, которая обучается структурированному рассуждению на небольшой подвыборке пользователей и распространяет его на миллиарды пользователей с низкой активностью и разреженными профилями. Она объединяет уточнение Tree-of-Thought (ToT) с ограниченной энтропией, управляемое направляющей функцией, с обучением с учителем (SFT) и оптимизацией политики вознаграждения для передачи способностей к рассуждению без полного вывода LLM.
- Построение цепочек состояний пользователей с типами с помощью процедуры уточнения Tree-of-Thought (ToT), управляемой ограниченной энтропией.
- Обучение модели-студента на статических профилях посредством обучения с учителем (SFT) и оптимизации политики неявного вознаграждения, ориентированной на результат и учитывающей сегменты (OSIPO).
- Передача репрезентаций рассуждения легковесному кодировщику профилей для предоставления общих сигналов остальным пользователям.
- Оценка проводилась в задаче прогнозирования пожизненной ценности (LTV) в рекламном развертывании миллиардного масштаба, охватывая лишь 7.32% населения офлайн.
ScaleToT увеличивает LT30 на 6.738% в онлайн A/B-тестах при одновременном значительном снижении вычислительных затрат по сравнению с рассуждением для всей популяции.