Автор представляет USAF, новый метод разреженного дообучения для моделей Mixture of Experts (MoE), предназначенный для работы на оборудовании, способном только на инференс.
- Метод обучает веса разреженных экспертов и маршрутизатора вместо использования адаптеров.
- Он позволяет дообучать Qwen3-30B-A3B на AMD RX 6750 XT с 12 GB VRAM.
- Проект распространяется под лицензией Apache 2.0.
Этот подход направлен на демократизацию доступа к настройке моделей MoE за счет устранения высоких требований к оборудованию, обычно связанных с дообучением.