В статье представлена методика ScaleToT, которая обучается структурированному рассуждению на небольшой подвыборке пользователей и распространяет его на миллиарды пользователей с низкой активностью и разреженными профилями. Она объединяет уточнение Tree-of-Thought (ToT) с ограниченной энтропией, управляемое направляющей функцией, с обучением с учителем (SFT) и оптимизацией политики вознаграждения для передачи способностей к рассуждению без полного вывода LLM.

  • Построение цепочек состояний пользователей с типами с помощью процедуры уточнения Tree-of-Thought (ToT), управляемой ограниченной энтропией.
  • Обучение модели-студента на статических профилях посредством обучения с учителем (SFT) и оптимизации политики неявного вознаграждения, ориентированной на результат и учитывающей сегменты (OSIPO).
  • Передача репрезентаций рассуждения легковесному кодировщику профилей для предоставления общих сигналов остальным пользователям.
  • Оценка проводилась в задаче прогнозирования пожизненной ценности (LTV) в рекламном развертывании миллиардного масштаба, охватывая лишь 7.32% населения офлайн.

ScaleToT увеличивает LT30 на 6.738% в онлайн A/B-тестах при одновременном значительном снижении вычислительных затрат по сравнению с рассуждением для всей популяции.