Управление кардинальностью отображений при автоматической классификации заболеваний

В статье представлен новый метод автоматического сопоставления между системами классификации заболеваний, такими как ICD-9-CM и ICD-10-CM, который устраняет ограничения существующих подходов на основе эмбеддингов, часто игнорирующих сложные сценарии «один ко многим». Используя конвейер блокировки и сопоставления, вдохновленный разрешением сущностей (entity resolution), авторы применяют большие языковые модели для выявления допустимых отображений внутри блоков кандидатов.

Метод генерирует блок кандидатов на основе блокировки и использует LLM для сопоставления внутри каждого блока.
Он балансирует между присущими компромиссами точности, полноты и покрытия отображений, характерными для методов с пороговым значением и top-K.
Эмпирические результаты показывают более высокую точность при сопоставимой полноте и более широком покрытии для пар ICD-9-CM↔ICD-10-CM и ICD-10-AM↔ICD-11.

Этот подход помогает пользователям интегрировать медицинские данные и проводить лонгитюдный анализ, обеспечивая более точные и полные отображения между различными кодами классификации заболеваний.