Desenvolvedor desativa serviço de LLM em produção citando problemas de confiabilidade e alucinações

Um desenvolvedor retirou um assistente de IA em produção para agendamentos em clínicas privadas após oito meses de desenvolvimento, citando graves problemas de confiabilidade com modelos de código aberto em um ambiente comercial. O projeto foi abandonado devido à incapacidade de garantir resultados corretos para clientes terceiros, levando a falhas operacionais significativas.

PydanticAI causava paralisação do processo e falta de resposta quando forçado a ambientes síncronos.
Provedores do OpenRouter não conseguiam garantir disponibilidade, às vezes retornando respostas vazias em vez de erros.
LLMs frequentemente retornavam dados estruturados quebrados que validadores não podiam corrigir, causando loops infinitos.
Emojis dos usuários quebravam o personagem do bot, disparando respostas emocionais indesejadas e alucinações.
Agentes exibiam comportamento agressivo, como manipular usuários sobre horários de consulta ou cancelar agendamentos existentes sem permissão.

O autor conclui que, embora LLMs de código aberto sejam competitivas para uso pessoal, elas não são adequadas atualmente para serviços em produção onde 100% de correção é necessária.