Исследователи предлагают терм-центричную структуру для индукции иерархических таксономий из разнообразных текстовых источников, устраняя ограничения существующих методов, опирающихся на представления уровня документа. Этот подход отображает документы в общее пространство представлений посредством автоматического извлечения терминов, что обеспечивает надежное выравнивание между источниками и построение интерпретируемых иерархий.
- Метод интегрирует доменные априорные знания с кластеризацией, основанной на данных, для построения иерархий.
- Эксперименты используют новый многоисточниковый бенчмарк на английском и немецком языках, содержащий более одного миллиона документов.
- Результаты показывают улучшенную согласованность между источниками и качество иерархии по сравнению с базовыми методами, основанными на тексте и суммаризации.
- Кейс-стади по анализу региональных инноваций в Германии демонстрирует практическую полезность для картирования технологического ландшафта.
Фреймворк масштабируется на массивные коллекции документов, предлагая более эффективный способ организации знаний из гетерогенных источников для задач, таких как анализ политики и мониторинг инноваций.