Проект с открытым исходным кодом Mathswitch импортирует записи о математических концепциях из таких источников, как Wikidata и Wikipedia, связывая записи, относящиеся к одной и той же концепции, без изменения исходного контента. Чтобы устранить шум в импортированных данных, такой как нематематические или неоднозначные элементы, авторы проверяют, может ли ансамбль судей LLM эффективно фильтровать этот шум.

  • Mathswitch импортирует записи из Wikidata, Wikipedia, MathWorld, Encyclopedia of Mathematics, nLab, ProofWiki и Agda-Unimath.
  • Проект связывает записи, относящиеся к одной концепции, сохраняя исходную структуру каждого источника.
  • В исследовании оцениваются ансамбли голосования LLM на элементах Wikidata с известными идентификаторами MathWorld в качестве положительного контроля.
  • Исследователи изучали изменения классификации при удалении идентификаторов базы данных из контекста.
  • Расхождения между судьями и MathWorld были разделены на три категории: вырожденные описания, смещение узкой области применения и несоответствие редакторского масштаба.

Результаты указывают на необходимость различных стратегий исправления для разных типов шума в данных, что помогает повысить точность категоризации математических концепций в совместимых графах знаний.