Saya membangun LLM triple-hybrid novel di bawah 1B parameter untuk ~$50

Mateusz telah mengembangkan model bahasa pra-pelatihan penuh, Titan v1 dari Project Inkblot, yang menggabungkan Mamba SSM, Multi-Head Attention, dan MoE 32-expert dalam satu arsitektur decoder-only di bawah 1B parameter. Model ini, dilatih pada satu GPU NVIDIA L4 untuk ~$50, mencapai perplexitas validasi 27,5 dan menunjukkan penskalaan efisien melalui pembaruan konfigurasi satu baris, dengan semua komponen diimplementasikan dari awal dalam PyTorch. Siklus pelatihan pertama Titan v2 sekarang selesai, dan ekspansi dataset sedang berlangsung.