Um pesquisador independente analisou a evolução das representações ocultas durante a inferência em sete modelos de peso aberto, incluindo GPT-2, OPT-125M e Llama-3.2-1B, para identificar regimes dinâmicos internos além dos benchmarks de saída padrão.
- As trajetórias de estados ocultos exibem estados proxy funcionais reproduzíveis, como processamento semelhante à sintaxe e comportamento semelhante à decisão, que permitem agrupar por dinâmica interna em vez de contagem de parâmetros.
- Sondas lineares decodificam categorias funcionais das representações ocultas com alta precisão, embora esse desempenho colapse sob permutação de rótulos, entradas gaussianas aleatórias ou permutação de características.
- Rotações ortogonais do espaço oculto preservam o desempenho de decodificação, indicando que a informação é codificada na geometria relativa das representações em vez de neurônios individuais ou dimensões.
- Assinaturas funcionais aparecem em camadas absolutas variadas entre arquiteturas, sugerindo que o cálculo é organizado como regimes funcionais em evolução em vez de camadas sintáticas ou semânticas fixas.
O autor busca feedback crítico de especialistas em interpretabilidade mecanicista e aprendizado de representação para validar essas observações empíricas e determinar experimentos de controle necessários.