Etiquetado de datos de entrenamiento para coincidencia de entidades usando modelos de lenguaje grandes

Este artículo investiga el uso de modelos de lenguaje grandes como modelos maestros en flujos de trabajo de destilación de conocimiento para etiquetar automáticamente datos de entrenamiento para modelos estudiantes más pequeños en tareas de coincidencia de entidades. El estudio evalúa varias estrategias de selección de pares, modelos maestros y estudiantes, y métodos de postprocesamiento en cinco conjuntos de referencia estándar.

Los modelos estudiantes entrenados con datos etiquetados por máquina tienen un rendimiento aproximadamente comparable a los entrenados con conjuntos de referencia, con diferencias en la puntuación F1 inferiores a dos puntos.
Etiquetar conjuntos de entrenamiento para cinco conjuntos de referencia usando GPT-5.2 cuesta entre US$28.31 y US$40.88, en comparación con un estimado de 470 horas de trabajo manual.
El modelo Ditto alcanza velocidades de inferencia de 41.5 a 534 veces más rápidas que usar directamente un LLM para tareas de coincidencia.

Estos resultados indican que los LLMs actuales pueden reducir sustancialmente o eliminar el esfuerzo manual requerido para etiquetar datos de entrenamiento específicos del caso de uso para la coincidencia de entidades cuando se combinan con métodos adecuados de selección de pares.