media Hugging Face Forums · 10 天前 · open_models

我构建了一个参数不到10亿的新型三重混合LLM，成本约50美元

译自 English → 中文

Mateusz开发了一个完整的预训练语言模型，Project Inkblot的Titan v1，将Mamba SSM、多头注意力和32专家MoE结合在一个单一解码器架构中，参数量不到10亿。该模型在单个NVIDIA L4 GPU上训练，成本约50美元，达到27.5的验证困惑度，并通过单行配置更新展示了高效的扩展能力，所有组件均使用PyTorch从头实现。Titan v2的首次训练周期现已完成，数据集扩展工作正在进行中。

重要性 2/3 可信度 1/3 Hugging Face Forums Code generation Inference efficiency Research paper

阅读原文