El autor argumenta que la comunidad de código abierto debería priorizar la construcción de un conjunto de datos masivo y de alta calidad para el pre-entrenamiento, en lugar de intentar coordinar el entrenamiento descentralizado de LLM en GPUs domésticas. Este cambio se presenta como una respuesta más práctica e inmediata a las recientes prohibiciones gubernamentales sobre modelos frontier comerciales y a la escasez de lanzamientos de pesos abiertos pequeños y medianos.

  • El autor descarta la viabilidad del entrenamiento distribuido en hardware de consumo a corto plazo, citando la necesidad de investigación primaria en algoritmos para redes de alta latencia.
  • Una solución propuesta implica crear clientes similares a los descargadores de BitTorrent para extraer, limpiar y alojar datos de internet.
  • El objetivo es una base de datos global que contenga billones de tokens, disponible abiertamente y alojada en computadoras individuales.

La existencia de tal conjunto de datos serviría como un mensaje significativo contra las grandes corporaciones que acaparan datos y VRAM, mientras acelera simultáneamente los futuros esfuerzos de entrenamiento distribuido.