Авторы представляют Cortex — фреймворк, который преобразует конструирование веб-корпусов масштаба интернета из плоской фильтрации документов в структурированную организацию знаний с использованием онтологического графа корпусов (OCG). Эта трехуровневая структура объединяет контент, очищенный по качеству, иерархическую легковесную онтологию и кросс-доменное выравнивание для удовлетворения растущих требований к данным больших языковых моделей.

  • OCG состоит из слоя контента, очищенного по качеству, слоя иерархической легковесной онтологии, управляемого LLM, и слоя кросс-доменного выравнивания для междоменной ассоциации.
  • Фреймворк позволяет синтезировать CortexBench — кросс-доменный бенчмарк поиска и рассуждений, оцененный на восьми передовых LLM.
  • Оценка подтверждает эффективность очистки качества, организации по доменам и синтеза кросс-доменных данных.
  • Полный исходный код, очищенный корпус объемом 24,14 млрд токенов с его OCG и CortexBench будут опубликованы в открытом доступе.

Этот подход решает проблему отсутствия систематической организации знаний в существующих конвейерах построения корпусов, предоставляя структурированный метод управления высококачественными обучающими данными масштаба интернета.