Penulis memperkenalkan USAF, metode fine-tuning sparse baru untuk model Mixture of Experts (MoE) yang dirancang untuk memungkinkan fine-tuning pada perangkat keras yang hanya mampu melakukan inferensi.

  • Metode ini melatih bobot expert sparse dan router alih-alih menggunakan adapter.
  • Ini memungkinkan fine-tuning Qwen3-30B-A3B pada AMD RX 6750 XT dengan 12 GB VRAM.
  • Proyek ini bersifat open source di bawah lisensi Apache 2.0.

Pendekatan ini bertujuan mendemokratisasi akses ke kustomisasi model MoE dengan menghilangkan persyaratan perangkat keras tinggi yang biasanya terkait dengan fine-tuning.