Limpieza de etiquetas asistida por LLM en conjunto de datos de TC torácico

Un modelo de lenguaje grande (LLM) ayudó a identificar discordancias entre etiquetas e informes en el conjunto de datos de TC torácico CT-RATE. GPT-5.4 logró un 96,4 % de acuerdo con las etiquetas existentes, y la adjudicación por radiólogos respaldó las etiquetas derivadas del LLM en el 74,2 % de las discordancias generales y en el 91,9 % de las de linfadenopatía. Las etiquetas basadas en mayoría de múltiples LLM superaron a otras en puntuación F1 y kappa, y el conjunto de datos limpiado se liberará públicamente.