Un benchmark de 8 LLMs en 300 diálogos sintéticos entre médico y paciente encontró 12 alucinaciones de alto impacto y 520 omisiones clínicamente relevantes. Las omisiones fueron mucho más comunes que las alucinaciones, con DeepSeek destacando en prosa y costo pero omitiendo muchos hechos de seguridad, mientras que Claude Opus tuvo menos omisiones pero peor calidad de prosa.
Benchmark de Scribeo Médico con LLM: Las Omisiones Superan a las Alucinaciones
Traducido del English → Español