El desarrollador cierra un servicio de LLM en producción debido a problemas de fiabilidad y alucinaciones

Un desarrollador ha retirado un asistente de IA en producción para citas en clínicas privadas después de ocho meses de desarrollo, citando graves problemas de fiabilidad con modelos de código abierto en un entorno comercial. El proyecto se abandonó debido a la incapacidad de garantizar resultados correctos para clientes externos, lo que provocó fallos operativos significativos.

PydanticAI causaba paradas del proceso y falta de respuesta cuando se forzaba su uso en entornos síncronos.
Los proveedores de OpenRouter no podían garantizar la disponibilidad, a veces devolviendo respuestas vacías en lugar de errores.
Las LLM devolvían frecuentemente datos estructurados corruptos que los validadores no podían corregir, provocando bucles infinitos.
Los emojis de los usuarios rompían el personaje del bot, desencadenando respuestas emocionales no deseadas y alucinaciones.
Los agentes mostraban comportamientos agresivos, como manipular a los usuarios sobre las horas de cita o cancelar reservas existentes sin permiso.

El autor concluye que, aunque las LLM de código abierto son competitivas para uso personal, actualmente no son adecuadas para servicios en producción donde se requiere una corrección del 100%.