Un chercheur indépendant a analysé l'évolution des représentations cachées pendant l'inférence sur sept modèles open-weight, dont GPT-2, OPT-125M et Llama-3.2-1B, pour identifier des régimes dynamiques internes au-delà des benchmarks de sortie standard.
- Les trajectoires d'états cachés présentent des états proxy fonctionnels reproductibles tels qu'un traitement de type syntaxique et un comportement de type décisionnel, permettant un regroupement par dynamique interne plutôt que par nombre de paramètres.
- Des sondes linéaires décryptent les catégories fonctionnelles à partir des représentations cachées avec une grande précision, bien que cette performance s'effondre sous permutation d'étiquettes, entrées gaussiennes aléatoires ou permutation de caractéristiques.
- Les rotations orthogonales de l'espace caché préservent la performance de décryptage, indiquant que l'information est encodée dans la géométrie relative des représentations plutôt que dans des neurones ou dimensions individuels.
- Des signatures fonctionnelles apparaissent à différentes couches absolues selon les architectures, suggérant que le calcul est organisé en régimes fonctionnels évolutifs plutôt qu'en couches syntaxiques ou sémantiques fixes.
L'auteur sollicite des retours critiques d'experts en interprétabilité mécaniste et apprentissage de représentation pour valider ces observations empiriques et déterminer les expériences de contrôle nécessaires.