Анализ динамики скрытых состояний в 7 моделях LLM с открытым весом выявляет повторяющиеся функциональные паттерны
Независимый исследователь проанализировал эволюцию скрытых представлений во время инференса на семи моделях с открытым весом, включая GPT-2, OPT-125M и Llama-3.2-1B, чтобы выявить внутренние динамические режимы за пределами стандартных бенчмарков вывода.