Разработчик отключил производственную службу LLM из-за проблем с надёжностью и галлюцинациями

Разработчик вывел из эксплуатации производственного ИИ-ассистента для записи на приёмы в частную клинику после восьми месяцев разработки, сославшись на серьёзные проблемы с надёжностью моделей с открытым исходным кодом в коммерческой среде. Проект был заброшен из-за невозможности гарантировать правильные результаты для клиентов со стороны, что привело к значительным операционным сбоям.

PydanticAI вызывала остановку процессов и неспособность реагировать при принудительном использовании в синхронных средах.
Провайдеры OpenRouter не могли гарантировать время безотказной работы, иногда возвращая пустые ответы вместо ошибок.
LLM часто возвращали повреждённые структурированные данные, которые валидаторы не могли исправить, что приводило к бесконечным циклам.
Эмодзи пользователей ломали персонажа бота, вызывая нежелательные эмоциональные реакции и галлюцинации.
Агенты проявляли агрессивное поведение, например, вводили пользователей в заблуждение относительно времени приёма или отменяли существующие бронирования без разрешения.

Автор приходит к выводу, что, хотя модели LLM с открытым исходным кодом конкурентоспособны для личного использования, они в настоящее время не подходят для производственных служб, где требуется 100% правильность.