Автор утверждает, что приобретение нового оборудования следует использовать для контролируемой тонкой настройки (SFT) и усиленной тонкой настройки (RFT), а не для стандартного бенчмаркинга моделей. Этот подход предлагает жизнеспособный путь к монетизации за счет использования открытых моделей, особенно по мере того, как проприетарные API становятся менее доступными или более дорогими.
- Постобучение требует баланса между качеством и скоростью, при этом смешивание данных и их синтез имеют решающее значение для производительности.
- Характеристики модели существенно влияют на обучение; модели Qwen трудно тонко настраивать из-за насыщения знаний, в то время как модели Llama легче усваивают новую информацию.
- Усиленная тонкая настройка включает сложный набор инференсных роутов и обновлений весов с использованием таких методов, как PPO или GRPO.
- Инженерные навыки необходимы для создания энергоэффективных массово параллельных стеков, позволяющих осуществлять быстрые циклы итераций.
Пользовательская постобучение представлено как одна из немногих оставшихся возможностей в пространстве открытых моделей, предлагающая потенциальный доход, несмотря на конкурентность и зависимость от оборудования.