Este projeto de pesquisa independente caracteriza a dinâmica interna de sete modelos de linguagem pequenos e médios analisando como as representações ocultas evoluem durante a inferência, em vez de depender de benchmarks de saída padrão. O estudo investiga o comportamento dinâmico, a organização funcional e a geometria da representação para identificar padrões reproduzíveis entre diferentes arquiteturas.
- A análise abrange GPT-2, DistilGPT2, OPT-125M, Qwen2.5-0.5B-Instruct, TinyLlama-1.1B-Chat, Phi-1.5 e Llama-3.2-1B.
- Os modelos se separam consistentemente em dois clusters: GPT-2 e DistilGPT2 formam um grupo, enquanto os cinco modelos restantes formam outro, apesar das diferenças arquiteturais.
- A informação funcional é linearmente decodificável a partir de representações ocultas, com capacidade funcional variável entre camadas que não se alinha em profundidades absolutas idênticas.
- Rotações ortogonais preservam a decodificabilidade quase inteiramente, sugerindo que os sinais funcionais dependem da geometria do espaço de representação em vez de dimensões de embedding específicas.
A pesquisa visa passar da observação para o teste causal para determinar se perturbar regiões funcionais específicas altera o comportamento downstream e como esses princípios de organização escalam com o tamanho do modelo.