Los investigadores proponen un marco de trabajo centrado en términos para inducir taxonomías jerárquicas a partir de diversas fuentes de texto, abordando las limitaciones de los métodos existentes que dependen de representaciones a nivel de documento. Este enfoque mapea documentos en un espacio de representación compartido mediante la extracción automática de términos para permitir una alineación robusta entre fuentes y construir jerarquías interpretables.
- El método integra conocimientos previos del dominio con agrupamiento basado en datos para construir jerarquías.
- Los experimentos utilizan un nuevo benchmark multi-fuente en inglés y alemán que contiene más de un millón de documentos.
- Los resultados muestran una coherencia entre fuentes y una calidad de la jerarquía mejoradas en comparación con las líneas base basadas en texto y resúmenes.
- Un estudio de caso sobre el análisis de la innovación regional alemana demuestra la utilidad práctica para el mapeo del panorama tecnológico.
El marco de trabajo escala a colecciones masivas de documentos, ofreciendo una forma más efectiva de organizar el conocimiento procedente de fuentes heterogéneas para tareas como el análisis de políticas y el monitoreo de la innovación.