CORTEX: высококачественная кросс-доменная организация веб-корпусов через онтологический граф корпусов
Авторы представляют Cortex — фреймворк, который преобразует конструирование веб-корпусов масштаба интернета из плоской фильтрации документов в структурированную организацию знаний с использованием онтологического графа корпусов (OCG). Эта трехуровневая структура объединяет контент, очищенный по качеству, иерархическую легковесную онтологию и кросс-доменное выравнивание для удовлетворения растущих требований к данным больших языковых моделей.