Первые токены в трансформерах: механические корни идентичности языка

LIHA выявляет небольшое количество голов первых токенов в GPT-2, которые постоянно обращаются к первому токену запроса, вызывая переключение языка. Обучение по инструкциям переориентирует эти схемы, концентрируя идентичность языка на ранних слоях, как это показано в контролируемом сравнении моделей Qwen2.5-1.5B-Base и Qwen2-1.5B-Instruct. Первое токенное распространение является специфичным для сценариев, с непереводимыми языками, обрабатываемыми на слое 0, что соответствует паттерну инструкционно обученной модели.