Предложение единого открытого датасета вместо децентрализованного обучения LLM

Автор утверждает, что сообщество с открытым исходным кодом должно приоритизировать создание массивного высококачественного датасета для предварительного обучения, а не пытаться координировать децентрализованное обучение LLM на домашних GPU. Этот сдвиг представлен как более практичный и немедленный ответ на недавние правительственные запреты на коммерческие фронтьерные модели и нехватку релизов открытых весов малого и среднего размера.

Автор отвергает осуществимость распределенного обучения на потребительском оборудовании в ближайшей перспективе, ссылаясь на необходимость первичных исследований алгоритмов для сетей с высокой задержкой.
Предлагаемое решение включает создание клиентов, аналогичных BitTorrent-клиентам, для сбора, очистки и размещения данных из интернета.
Цель — глобальная база данных, содержащая триллионы токенов, которая будет открыто доступна и размещена на индивидуальных компьютерах.

Существование такого датасета послужило бы значительным заявлением против корпораций, монополизирующих данные и VRAM, одновременно ускоряя будущие усилия по распределенному обучению.