Los autores presentan Cortex, un marco que transforma la construcción de corpora a escala web desde el filtrado plano de documentos hacia una organización estructurada del conocimiento utilizando un Grafo de Corpus Ontológico (OCG). Esta estructura de tres capas unifica contenido refinado por calidad, una ontología jerárquica ligera y alineación entre dominios para abordar los crecientes requisitos de datos de los modelos de lenguaje grandes.

  • El OCG consta de una capa de contenido refinado por calidad, una capa de ontología jerárquica ligera impulsada por LLMs y una capa de alineación entre dominios para la asociación interdominio.
  • El marco permite la síntesis de CortexBench, un benchmark de búsqueda y razonamiento entre dominios evaluado en ocho LLMs de vanguardia.
  • La evaluación valida la efectividad del refinamiento de calidad, la organización por dominio y la síntesis de datos entre dominios.
  • Se liberará públicamente el código completo, un corpus refinado de 24.14B tokens con su OCG y CortexBench.

Este enfoque aborda la falta de organización sistemática del conocimiento en los pipelines existentes de construcción de corpora proporcionando un método estructurado para gestionar datos de entrenamiento a escala web de alta calidad.