El proyecto de código abierto Mathswitch importa registros de conceptos matemáticos desde fuentes como Wikidata y Wikipedia, vinculando registros que se refieren al mismo concepto sin reorganizar el contenido original. Para abordar el ruido en los datos importados, como elementos no matemáticos o ambiguos, los autores prueban si un conjunto de votación de jueces LLM puede filtrar eficazmente este ruido.
- Mathswitch importa registros desde Wikidata, Wikipedia, MathWorld, Encyclopedia of Mathematics, nLab, ProofWiki y Agda-Unimath.
- El proyecto vincula registros que se refieren al mismo concepto mientras preserva la estructura original de cada fuente.
- El estudio evalúa conjuntos de votación LLM en elementos de Wikidata con identificadores conocidos de MathWorld como un control positivo.
- Los investigadores examinaron los cambios en la clasificación cuando se eliminaron los identificadores de la base de datos del contexto.
- Las discrepancias entre los jueces y MathWorld se agruparon en tres categorías: descripciones degeneradas, sesgo de alcance estrecho e incompatibilidades de alcance editorial.
Los hallazgos sugieren estrategias de remediación distintas para diferentes tipos de ruido de datos, ayudando a mejorar la precisión de la categorización de conceptos matemáticos en grafos de conocimiento colaborativos.