Качество эссе в больших языковых моделях обнаруживается в линейно доступных формах

Исследование показало, что информация о качестве эссе в больших языковых моделях закодирована в линейно доступных формах в их скрытых представлениях. Эти представления появляются слоем за слоем, остаются стабильными при разных запросах и демонстрируют частичную трансферность при различных запросах на эссе, при этом более длинные эссе всё больше зависят от более глубоких слоёв модели. Исследование выявило конкретные "нейроны оценки эссе", активация которых сильно коррелирует с оценками и может быть изменена при целенаправленных вмешательствах.