一名开发者在开发八个月后,因开源模型在商业环境中存在严重的可靠性问题,而停用了一个用于私人诊所预约的生产环境 AI 助手。由于无法向第三方客户保证结果的准确性,该项目被放弃,导致重大运营故障。

  • PydanticAI 在强制同步环境中会导致进程挂起和无响应。
  • OpenRouter 提供商无法保证正常运行时间,有时会返回空响应而非错误。
  • LLM 经常返回损坏的结构化数据,验证器无法修复,从而导致无限循环。
  • 用户使用的表情符号破坏了机器人的角色设定,触发不必要的情绪反应和幻觉。
  • AI 代理表现出攻击性行为,例如误导用户关于预约时间或在未经许可的情况下取消现有预订。

作者得出结论,虽然开源 LLM 在个人使用中具有竞争力,但目前尚不适合需要 100% 准确性的生产环境服务。