Исследование функциональных режимов внутри малых языковых моделей

Этот независимый исследовательский проект характеризует внутреннюю динамику семи малых и средних языковых моделей, анализируя эволюцию скрытых представлений во время вывода, а не полагаясь на стандартные выходные бенчмарки. Исследование изучает динамическое поведение, функциональную организацию и геометрию представлений для выявления воспроизводимых паттернов в различных архитектурах.

Анализ охватывает GPT-2, DistilGPT2, OPT-125M, Qwen2.5-0.5B-Instruct, TinyLlama-1.1B-Chat, Phi-1.5 и Llama-3.2-1B.
Модели последовательно разделяются на два кластера: GPT-2 и DistilGPT2 образуют одну группу, тогда как остальные пять моделей формируют другую, несмотря на архитектурные различия.
Функциональная информация линейно декодируется из скрытых представлений, при этом функциональная емкость варьируется по слоям и не совпадает на одинаковых абсолютных глубинах.
Ортогональные вращения почти полностью сохраняют декодируемость, что предполагает зависимость функциональных сигналов от геометрии пространства представлений, а не от конкретных размерностей эмбеддингов.

Исследование направлено на переход от наблюдения к каузальному тестированию для определения того, изменяет ли возмущение специфических функциональных областей поведение на последующих этапах и как эти принципы организации масштабируются с размером модели.