Un usuario de Reddit describe varias motivaciones para elegir ejecutar modelos de lenguaje grandes localmente en lugar de depender de APIs comerciales.
- Los usuarios pueden ajustar cualquier modelo con cualquier conjunto de datos que elijan.
- Técnicas como speculative decoding se pueden usar para maximizar los tokens por segundo.
- Ejecutar localmente asegura que los datos no se compartan con proveedores como Anthropic u OpenAI.
- El hardware es reutilizable para tareas de visión, texto y voz, permitiendo el uso gratuito de cualquier combinación de modelos.
- Los usuarios pueden curar conjuntos de datos sin preocuparse por los costos de la API.
El artículo destaca los beneficios del control, la privacidad y la eficiencia de costos asociados con la inferencia local.