Разметка обучающих данных для сопоставления сущностей с помощью больших языковых моделей

В данной статье исследуется использование больших языковых моделей в качестве моделей-учителей в рабочих процессах дистилляции знаний для автоматической разметки обучающих данных для более малых моделей-студентов в задачах сопоставления сущностей. Исследование оценивает различные стратегии выбора пар, модели учителей и студентов, а также методы постобработки на пяти стандартных бенчмарках.

Модели-студенты, обученные на машинно размеченных данных, показывают результаты примерно на уровне тех, что обучены на наборах бенчмарков, при этом разница в F1-мере остаётся менее двух пунктов.
Разметка обучающих наборов для пяти бенчмарков с помощью GPT-5.2 стоит от 28,31 до 40,88 долларов США по сравнению с оценочными 470 часами ручного труда.
Модель Ditto обеспечивает скорость вывода в 41,5–534 раза быстрее, чем прямое использование LLM для задач сопоставления.

Эти результаты показывают, что современные LLM могут существенно сократить или полностью устранить ручной труд, необходимый для разметки обучающих данных под конкретные use-case задачи сопоставления сущностями, при сочетании с подходящими методами выбора пар.