Reconstruindo Gemma 4 31b... melhor... Como 26b...

Um desenvolvedor detalha um plano para reconstruir o modelo Gemma 4 31B reduzindo sua contagem de parâmetros para aproximadamente 26B, enquanto visa melhorar o desempenho. O projeto envolve mudanças arquiteturais, técnicas de treinamento específicas e curadoria de datasets para criar um modelo menor e mais eficiente.

Remover a Camada 3, identificada como a mais fraca das cinco camadas de atenção de janela deslizante (SWA).
Redimensionar os contextos de atenção SWA para 1024/2048/4096/8.1k tokens seguido por uma camada global.
Implementar "Attention based Residual Networks" nas camadas globais para melhorar o fluxo de informação e a coerência global.
Usar os logits TopK (12 ou 20) do modelo original como alvos para o retreinamento, congelando o topo e a base da rede.
Reduzir os parâmetros totais de ~30.81B para ~26.02B através dessas modificações estruturais.

O autor pretende alcançar melhores capacidades de contexto longo e desempenho geral em uma pegada menor, com planos de potencialmente remover a censura da fase de "pensamento" do modelo.