O Prism Transformer introduz um agendamento progressivo de cabeças que varia o número de cabeças de atenção entre as camadas, começando com menos cabeças mais largas nas camadas iniciais e aumentando a contagem monotonicamente com a profundidade. Esta abordagem desafia a alocação uniforme padrão ao atender às necessidades estruturais distintas das camadas iniciais versus tardias sem adicionar sobrecarga arquitetural.

  • As camadas iniciais utilizam subespaços largos por cabeça (dh=256) para captura rica de padrões locais, enquanto as camadas tardias usam muitas cabeças estreitas para decomposição especializada.
  • As matrizes de peso mantêm formas padrão dmodel×dmodel, mantendo a contagem de parâmetros neutra.
  • O total de FLOPs permanece matematicamente invariante à contagem de cabeças, garantindo neutralidade computacional.
  • Dimensões de cabeça em potência de 2 (dh ∈ {256, 128}) preservam o alinhamento do Tensor Core para neutralidade de throughput.
  • Os resultados mostram menor perda de validação em todas as escalas em comparação com bases uniformes com tokens/sec e tempo de parede idênticos.
  • O modelo alcança ganhos ou paridade em benchmarks incluindo PIQA, WinoGrande, HellaSwag e ARC-Easy.

A análise da distância de atenção por camada confirma que o ganho é estrutural, pois as camadas iniciais do Prism atendem mais localmente antes de mudar para integração global. A implementação requer apenas uma mudança de linha por camada de atenção para tornar a contagem de cabeças dependente da camada.