Автор утверждает, что приобретение нового оборудования следует использовать для контролируемой тонкой настройки (SFT) и усиленной тонкой настройки (RFT), а не для стандартного бенчмаркинга моделей. Этот подход предлагает жизнеспособный путь к монетизации за счет использования открытых моделей, особенно по мере того, как проприетарные API становятся менее доступными или более дорогими.

  • Постобучение требует баланса между качеством и скоростью, при этом смешивание данных и их синтез имеют решающее значение для производительности.
  • Характеристики модели существенно влияют на обучение; модели Qwen трудно тонко настраивать из-за насыщения знаний, в то время как модели Llama легче усваивают новую информацию.
  • Усиленная тонкая настройка включает сложный набор инференсных роутов и обновлений весов с использованием таких методов, как PPO или GRPO.
  • Инженерные навыки необходимы для создания энергоэффективных массово параллельных стеков, позволяющих осуществлять быстрые циклы итераций.

Пользовательская постобучение представлено как одна из немногих оставшихся возможностей в пространстве открытых моделей, предлагающая потенциальный доход, несмотря на конкурентность и зависимость от оборудования.