Preentrené y postentrené un LLM de 500M parámetros y un generador de imágenes de 330M parámetros desde cero
El autor preentrenó un modelo de lenguaje de 500M parámetros y un generador de imágenes de 330M parámetros desde cero utilizando 40B tokens de fineweb. El generador de imágenes se inspiró en la arquitectura DreamLite de ByteDance y se entrenó con una mezcla de conjuntos de datos de MidJourney, Flux y CCW3.