Mateusz开发了一个完整的预训练语言模型,Project Inkblot的Titan v1,将Mamba SSM、多头注意力和32专家MoE结合在一个单一解码器架构中,参数量不到10亿。该模型在单个NVIDIA L4 GPU上训练,成本约50美元,达到27.5的验证困惑度,并通过单行配置更新展示了高效的扩展能力,所有组件均使用PyTorch从头实现。Titan v2的首次训练周期现已完成,数据集扩展工作正在进行中。
我构建了一个参数不到10亿的新型三重混合LLM,成本约50美元
译自 English → 中文