El proyecto de código abierto Mathswitch importa registros de conceptos matemáticos desde fuentes como Wikidata y Wikipedia, vinculando registros que se refieren al mismo concepto sin reorganizar el contenido original. Para abordar el ruido en los datos importados, como elementos no matemáticos o ambiguos, los autores prueban si un conjunto de votación de jueces LLM puede filtrar eficazmente este ruido.

  • Mathswitch importa registros desde Wikidata, Wikipedia, MathWorld, Encyclopedia of Mathematics, nLab, ProofWiki y Agda-Unimath.
  • El proyecto vincula registros que se refieren al mismo concepto mientras preserva la estructura original de cada fuente.
  • El estudio evalúa conjuntos de votación LLM en elementos de Wikidata con identificadores conocidos de MathWorld como un control positivo.
  • Los investigadores examinaron los cambios en la clasificación cuando se eliminaron los identificadores de la base de datos del contexto.
  • Las discrepancias entre los jueces y MathWorld se agruparon en tres categorías: descripciones degeneradas, sesgo de alcance estrecho e incompatibilidades de alcance editorial.

Los hallazgos sugieren estrategias de remediación distintas para diferentes tipos de ruido de datos, ayudando a mejorar la precisión de la categorización de conceptos matemáticos en grafos de conocimiento colaborativos.