El autor argumenta que la adquisición de nuevo hardware debería utilizarse para el ajuste fino supervisado (SFT) y el ajuste fino por refuerzo (RFT) en lugar de la evaluación estándar de modelos. Este enfoque ofrece una vía viable de monetización al aprovechar modelos de código abierto, especialmente a medida que las APIs propietarias se vuelven menos accesibles o más costosas.
- El post-entrenamiento requiere equilibrar calidad y velocidad, siendo la mezcla y síntesis de datos críticas para el rendimiento.
- Las características del modelo impactan significativamente en el entrenamiento; los modelos Qwen son difíciles de ajustar fino debido a su conocimiento saturado, mientras que los modelos Llama absorben nueva información con mayor facilidad.
- El ajuste fino por refuerzo implica una mezcla compleja de rollouts de inferencia y actualizaciones de pesos utilizando métodos como PPO o GRPO.
- Las habilidades de ingeniería son esenciales para construir pilas masivamente paralelas y de bajo consumo que permitan ciclos de iteración rápidos.
El post-entrenamiento personalizado se presenta como una de las pocas oportunidades restantes en el espacio de modelos abiertos, ofreciendo ingresos potenciales a pesar de ser competitivo y dependiente del hardware.