Explorer les régimes fonctionnels à l'intérieur des petits modèles de langage

Ce projet de recherche indépendant caractérise la dynamique interne de sept modèles de langage de taille petite et moyenne en analysant comment les représentations cachées évoluent pendant l'inférence, plutôt que de s'appuyer sur des benchmarks de sortie standard. L'étude examine le comportement dynamique, l'organisation fonctionnelle et la géométrie des représentations pour identifier des motifs reproductibles à travers différentes architectures.

L'analyse couvre GPT-2, DistilGPT2, OPT-125M, Qwen2.5-0.5B-Instruct, TinyLlama-1.1B-Chat, Phi-1.5 et Llama-3.2-1B.
Les modèles se séparent systématiquement en deux clusters : GPT-2 et DistilGPT2 forment un groupe, tandis que les cinq autres modèles en forment un autre malgré les différences architecturales.
L'information fonctionnelle est linéairement décodable à partir des représentations cachées, avec une capacité fonctionnelle variable selon les couches qui ne s'aligne pas à des profondeurs absolues identiques.
Les rotations orthogonales préservent presque entièrement la décodabilité, suggérant que les signaux fonctionnels dépendent de la géométrie de l'espace de représentation plutôt que de dimensions d'intégration spécifiques.

La recherche vise à passer de l'observation au test causal pour déterminer si la perturbation de régions fonctionnelles spécifiques altère le comportement en aval et comment ces principes d'organisation évoluent avec la taille du modèle.