मैंने ~$50 में 1B पैरामीटर से कम के लिए एक नवीन ट्रिपल-हाइब्रिड LLM बनाया

Mateusz ने एक पूर्ण प्री-ट्रेन्ड भाषा मॉडल, Project Inkblot का Titan v1 विकसित किया, जिसने Mamba SSM, Multi-Head Attention और 32-विशेषज्ञ MoE को 1B पैरामीटर से कम के साथ एकल डिकोडर-ओनली आर्किटेक्चर में जोड़ा है। मॉडल, जिसे ~$50 में एकल NVIDIA L4 GPU पर प्रशिक्षित किया गया, 27.5 वैलिडेशन प्लेक्सिटी प्राप्त करता है और PyTorch में शून्य से सभी घटकों को लागू करते हुए, एक-लाइन कॉन्फ़िग अपडेट के माध्यम से कुशल स्केलिंग प्रदर्शित करता है। Titan v2 का पहला प्रशिक्षण चक्र अब पूर्ण हो गया है, और डेटासेट विस्तार चल रहा है।