Proponiendo un conjunto de datos abierto unificado en lugar de entrenamiento descentralizado de LLM

El autor argumenta que la comunidad de código abierto debería priorizar la construcción de un conjunto de datos masivo y de alta calidad para el pre-entrenamiento, en lugar de intentar coordinar el entrenamiento descentralizado de LLM en GPUs domésticas. Este cambio se presenta como una respuesta más práctica e inmediata a las recientes prohibiciones gubernamentales sobre modelos frontier comerciales y a la escasez de lanzamientos de pesos abiertos pequeños y medianos.

El autor descarta la viabilidad del entrenamiento distribuido en hardware de consumo a corto plazo, citando la necesidad de investigación primaria en algoritmos para redes de alta latencia.
Una solución propuesta implica crear clientes similares a los descargadores de BitTorrent para extraer, limpiar y alojar datos de internet.
El objetivo es una base de datos global que contenga billones de tokens, disponible abiertamente y alojada en computadoras individuales.

La existencia de tal conjunto de datos serviría como un mensaje significativo contra las grandes corporaciones que acaparan datos y VRAM, mientras acelera simultáneamente los futuros esfuerzos de entrenamiento distribuido.