Разработчик излагает план пересборки модели Gemma 4 31B путем снижения количества параметров до примерно 26B с целью улучшения производительности. Проект включает архитектурные изменения, специфические методы обучения и курирование датасетов для создания более компактной и эффективной модели.

  • Удалить слой 3, который является самым слабым из пяти слоев скользящего окна внимания (SWA).
  • Масштабировать длины контекста внимания SWA до 1024/2048/4096/8.1k токенов с последующим глобальным слоем.
  • Внедрить "Attention based Residual Networks" в глобальных слоях для улучшения потока информации и глобальной связности.
  • Использовать логиты TopK (12 или 20) из исходной модели как цели для повторного обучения, замораживая верхнюю и нижнюю части сети.
  • Снизить общее количество параметров с ~30.81B до ~26.02B посредством этих структурных изменений.

Автор намерен достичь лучших возможностей работы с длинным контекстом и общей производительности в меньшем объеме, с планами потенциально отключить цензуру фазы "мышления" модели.