Автор предобучил модель языка на 500M параметров и генератор изображений на 330M параметров с нуля, используя 40B токенов из fineweb. Генератор изображений был вдохновлён архитектурой DreamLite от ByteDance и обучался на смеси датасетов из MidJourney, Flux и CCW3.
Я предобучил и постобучил 500M параметровую модель LLM и 330M параметровую генератор изображений с нуля
Переведено с English → Русский