В статье представлен новый метод автоматического сопоставления между системами классификации заболеваний, такими как ICD-9-CM и ICD-10-CM, который устраняет ограничения существующих подходов на основе эмбеддингов, часто игнорирующих сложные сценарии «один ко многим». Используя конвейер блокировки и сопоставления, вдохновленный разрешением сущностей (entity resolution), авторы применяют большие языковые модели для выявления допустимых отображений внутри блоков кандидатов.
- Метод генерирует блок кандидатов на основе блокировки и использует LLM для сопоставления внутри каждого блока.
- Он балансирует между присущими компромиссами точности, полноты и покрытия отображений, характерными для методов с пороговым значением и top-K.
- Эмпирические результаты показывают более высокую точность при сопоставимой полноте и более широком покрытии для пар ICD-9-CM↔ICD-10-CM и ICD-10-AM↔ICD-11.
Этот подход помогает пользователям интегрировать медицинские данные и проводить лонгитюдный анализ, обеспечивая более точные и полные отображения между различными кодами классификации заболеваний.