J'ai construit un LLM triple-hybride novateur de moins de 1 milliard de paramètres pour ~50 $

Mateusz a développé un modèle de langage entièrement pré-entraîné, Titan v1 de Project Inkblot, combinant Mamba SSM, l'attention multi-têtes et un MoE à 32 experts dans une seule architecture de décodeur unique sous les 1 milliard de paramètres. Le modèle, entraîné sur une seule GPU NVIDIA L4 pour ~50 $, atteint une perplexité de validation de 27,5 et démontre une mise à l'échelle efficace via une mise à jour de configuration en une seule ligne, tous les composants étant implémentés从零开始 dans PyTorch. Le premier cycle d'entraînement de Titan v2 est maintenant terminé, et l'expansion des données est en cours.