Un asistente de búsqueda de alquiler con funciones de LLM y soporte multi-mercado enfrentó defectos persistentes por parte de los usuarios a pesar de 1,553 pruebas automatizadas exitosas. El análisis de 252 commits de corrección de errores mostró que el 44% de las correcciones ocurrieron en cuatro costuras no vistas: tiempo de ejecución del navegador, mercado no predeterminado, flujos de extremo a extremo y nivel de sistema completo. Una corrección sin una guardia de costura causó que un defecto se enviara dos veces, destacando la necesidad de pruebas dirigidas en estos límites.