media Hugging Face Forums · 2 小时前 · open_models

USAF 使仅支持推理的 GPU 能够微调 MoE 模型

译自 English → 中文

作者介绍了 USAF，这是一种针对混合专家（MoE）模型的新型稀疏微调方法，旨在允许在仅能进行推理的硬件上进行微调。

该方法训练稀疏专家权重和路由器，而不是使用适配器。
它允许在配备 12 GB VRAM 的 AMD RX 6750 XT 上微调 Qwen3-30B-A3B。
该项目以 Apache 2.0 许可证开源。

这种方法旨在通过消除通常与微调相关的高硬件要求，使 MoE 模型的定制更加普及。

重要性 1/3 可信度 1/3 Hugging Face Forums Inference efficiency Training methods