CORTEX: Organización de alta calidad de corpora a escala web mediante un grafo de corpus ontológico
Los autores presentan Cortex, un marco que transforma la construcción de corpora a escala web desde el filtrado plano de documentos hacia una organización estructurada del conocimiento utilizando un Grafo de Corpus Ontológico (OCG). Esta estructura de tres capas unifica contenido refinado por calidad, una ontología jerárquica ligera y alineación entre dominios para abordar los crecientes requisitos de datos de los modelos de lenguaje grandes.