Авторы представляют Cortex — фреймворк, который преобразует конструирование веб-корпусов масштаба интернета из плоской фильтрации документов в структурированную организацию знаний с использованием онтологического графа корпусов (OCG). Эта трехуровневая структура объединяет контент, очищенный по качеству, иерархическую легковесную онтологию и кросс-доменное выравнивание для удовлетворения растущих требований к данным больших языковых моделей.
- OCG состоит из слоя контента, очищенного по качеству, слоя иерархической легковесной онтологии, управляемого LLM, и слоя кросс-доменного выравнивания для междоменной ассоциации.
- Фреймворк позволяет синтезировать CortexBench — кросс-доменный бенчмарк поиска и рассуждений, оцененный на восьми передовых LLM.
- Оценка подтверждает эффективность очистки качества, организации по доменам и синтеза кросс-доменных данных.
- Полный исходный код, очищенный корпус объемом 24,14 млрд токенов с его OCG и CortexBench будут опубликованы в открытом доступе.
Этот подход решает проблему отсутствия систематической организации знаний в существующих конвейерах построения корпусов, предоставляя структурированный метод управления высококачественными обучающими данными масштаба интернета.