Análise da dinâmica de estados ocultos em 7 LLMs de peso aberto revela padrões funcionais recorrentes

Um pesquisador independente analisou a evolução das representações ocultas durante a inferência em sete modelos de peso aberto, incluindo GPT-2, OPT-125M e Llama-3.2-1B, para identificar regimes dinâmicos internos além dos benchmarks de saída padrão.

As trajetórias de estados ocultos exibem estados proxy funcionais reproduzíveis, como processamento semelhante à sintaxe e comportamento semelhante à decisão, que permitem agrupar por dinâmica interna em vez de contagem de parâmetros.
Sondas lineares decodificam categorias funcionais das representações ocultas com alta precisão, embora esse desempenho colapse sob permutação de rótulos, entradas gaussianas aleatórias ou permutação de características.
Rotações ortogonais do espaço oculto preservam o desempenho de decodificação, indicando que a informação é codificada na geometria relativa das representações em vez de neurônios individuais ou dimensões.
Assinaturas funcionais aparecem em camadas absolutas variadas entre arquiteturas, sugerindo que o cálculo é organizado como regimes funcionais em evolução em vez de camadas sintáticas ou semânticas fixas.

O autor busca feedback crítico de especialistas em interpretabilidade mecanicista e aprendizado de representação para validar essas observações empíricas e determinar experimentos de controle necessários.