Автор представляет USAF, новый метод разреженного дообучения для моделей Mixture of Experts (MoE), предназначенный для работы на оборудовании, способном только на инференс.

  • Метод обучает веса разреженных экспертов и маршрутизатора вместо использования адаптеров.
  • Он позволяет дообучать Qwen3-30B-A3B на AMD RX 6750 XT с 12 GB VRAM.
  • Проект распространяется под лицензией Apache 2.0.

Этот подход направлен на демократизацию доступа к настройке моделей MoE за счет устранения высоких требований к оборудованию, обычно связанных с дообучением.