Um usuário do Reddit descreve várias motivações para escolher executar modelos de linguagem grandes localmente em vez de depender de APIs comerciais.
- Os usuários podem ajustar qualquer modelo em qualquer conjunto de dados de sua escolha.
- Técnicas como speculative decoding podem ser usadas para maximizar tokens por segundo.
- Executar localmente garante que os dados não sejam compartilhados com provedores como Anthropic ou OpenAI.
- O hardware é reutilizável para tarefas de visão, texto e fala, permitindo o uso gratuito de qualquer combinação de modelos.
- Os usuários podem curar conjuntos de dados sem se preocupar com os custos da API.
O post destaca os benefícios de controle, privacidade e eficiência de custos associados à inferência local.