作者介绍了 USAF,这是一种针对混合专家(MoE)模型的新型稀疏微调方法,旨在允许在仅能进行推理的硬件上进行微调。

  • 该方法训练稀疏专家权重和路由器,而不是使用适配器。
  • 它允许在配备 12 GB VRAM 的 AMD RX 6750 XT 上微调 Qwen3-30B-A3B。
  • 该项目以 Apache 2.0 许可证开源。

这种方法旨在通过消除通常与微调相关的高硬件要求,使 MoE 模型的定制更加普及。