قمت ببناء نموذج LLM هجين ثلاثي جديد بأقل من مليار معلمة مقابل حوالي 50 دولارًا

قام ماتيو بتطوير نموذج لغة مدرب مسبقًا بالكامل، Titan v1 الخاص بـ Project Inkblot، يجمع بين Mamba SSM و Multi-Head Attention و MoE مكون من 32 خبيرًا في بنية decoder-only واحدة بأقل من مليار معلمة. حقق النموذج، الذي تم تدريبه على بطاقة NVIDIA L4 واحدة مقابل حوالي 50 دولارًا، ارتباكًا للتحقق من الصحة يبلغ 27.5 ويظهر قابلية توسيع فعالة عبر تحديث تكوين سطر واحد، مع تنفيذ جميع المكونات من الصفر في PyTorch. اكتمل دورة التدريب الأولى لـ Titan v2 الآن، وتوسع مجموعة البيانات قيد التنفيذ.