Los investigadores proponen un marco de trabajo centrado en términos para inducir taxonomías jerárquicas a partir de diversas fuentes de texto, abordando las limitaciones de los métodos existentes que dependen de representaciones a nivel de documento. Este enfoque mapea documentos en un espacio de representación compartido mediante la extracción automática de términos para permitir una alineación robusta entre fuentes y construir jerarquías interpretables.

  • El método integra conocimientos previos del dominio con agrupamiento basado en datos para construir jerarquías.
  • Los experimentos utilizan un nuevo benchmark multi-fuente en inglés y alemán que contiene más de un millón de documentos.
  • Los resultados muestran una coherencia entre fuentes y una calidad de la jerarquía mejoradas en comparación con las líneas base basadas en texto y resúmenes.
  • Un estudio de caso sobre el análisis de la innovación regional alemana demuestra la utilidad práctica para el mapeo del panorama tecnológico.

El marco de trabajo escala a colecciones masivas de documentos, ofreciendo una forma más efectiva de organizar el conocimiento procedente de fuentes heterogéneas para tareas como el análisis de políticas y el monitoreo de la innovación.