약 $50에 1B 파라미터 미만의 새로운 트리플 하이브리드 LLM을 구축했습니다

Mateusz는 Mamba SSM, Multi-Head Attention 및 32 전문가 MoE를 1B 파라미터 미만의 단일 디코더 전용 아키텍처로 결합한 완전한 사전 훈련된 언어 모델인 Project Inkblot의 Titan v1을 개발했습니다. 이 모델은 단일 NVIDIA L4 GPU에서 약 $50에 훈련되었으며, 검증 퍼플렉시티 27.5를 달성하고 PyTorch로 처음부터 구현된 모든 구성 요소를 사용하여 단일 줄 구성 업데이트를 통해 효율적인 스케일링을 보여줍니다. Titan v2의 첫 번째 훈련 주기가 완료되었고 데이터셋 확장이 진행 중입니다.