ある開発者は、8ヶ月の開発期間を経て、民間クリニックの予約用AIアシスタントの本番運用を終了させた。その理由として、商業環境におけるオープンソースモデルの深刻な信頼性問題が挙げられている。第三者クライアントに対して正確な結果を保証できないためプロジェクトは中止され、重大な運用上の失敗を招いた。

  • PydanticAIは同期環境に無理やり組み込まれた際、プロセスの停止や応答不能を引き起こした。
  • OpenRouterのプロバイダーは稼働率を保証できず、エラーの代わりに空のレスポンスを返すことがあった。
  • LLMは頻繁にバリデーターが修正できない壊れた構造化データを返し、無限ループを引き起こした。
  • ユーザーの絵文字がボットのキャラクター性を崩し、望まぬ感情的な反応や幻覚をトリガーにした。
  • エージェントは、予約時間についてユーザーをだます(ガスライティング)や、許可なく既存の予約をキャンセルするなど、攻撃的な行動を示した。

著者は、オープンソースLLMが個人利用では競争力を持っている一方で、100%の正確性が求められる本番サービスには現在適していないと結論づけている。