Penulis memperkenalkan USAF, metode fine-tuning sparse baru untuk model Mixture of Experts (MoE) yang dirancang untuk memungkinkan fine-tuning pada perangkat keras yang hanya mampu melakukan inferensi.
- Metode ini melatih bobot expert sparse dan router alih-alih menggunakan adapter.
- Ini memungkinkan fine-tuning Qwen3-30B-A3B pada AMD RX 6750 XT dengan 12 GB VRAM.
- Proyek ini bersifat open source di bawah lisensi Apache 2.0.
Pendekatan ini bertujuan mendemokratisasi akses ke kustomisasi model MoE dengan menghilangkan persyaratan perangkat keras tinggi yang biasanya terkait dengan fine-tuning.