La prueba MedHal-Loc evalúa la fidelidad de localización en detectores de alucinaciones médicas

MedHal-Loc introduce un benchmark para evaluar si los detectores de alucinaciones médicas localizan con precisión los errores. Encuentra que, aunque algunas arquitecturas localizan bien por encima del azar, una pipeline basada en grafos de conocimiento no funciona mejor que el azar debido a la mala extracción de entidades, a pesar de un fuerte rendimiento de detección. Los resultados muestran que la capacidad de detección no garantiza una localización fiel, desafiando las suposiciones sobre la explicabilidad arquitectónica.